論文の概要: Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2506.06006v1
- Date: Fri, 06 Jun 2025 11:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.769485
- Title: Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
- Title(参考訳): マルチモーダルファンデーションモデルにおけるダイナミクスモデルからのブートストラップ世界モデル
- Authors: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti,
- Abstract要約: 我々は動的モデルを用いて、合成データと推論時間検証を用いて世界モデルをブートストラップする。
GPT4o-as-judgeによると、我々の最良のモデルは、最先端の画像編集モデルと性能を競い合っており、実世界のサブセットでは15%のマージンで改善されている。
- 参考スコア(独自算出の注目度): 37.774994737939394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To what extent do vision-and-language foundation models possess a realistic world model (observation $\times$ action $\rightarrow$ observation) and a dynamics model (observation $\times$ observation $\rightarrow$ action), when actions are expressed through language? While open-source foundation models struggle with both, we find that fine-tuning them to acquire a dynamics model through supervision is significantly easier than acquiring a world model. In turn, dynamics models can be used to bootstrap world models through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, the dynamics model can annotate actions for unlabelled pairs of video frame observations to expand the training data. We further propose a new objective, where image tokens in observation pairs are weighted by their importance, as predicted by a recognition model. Secondly, the dynamics models can assign rewards to multiple samples of the world model to score them, effectively guiding search at inference time. We evaluate the world models resulting from both strategies through the task of action-centric image editing on Aurora-Bench. Our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin of $15\%$ on real-world subsets according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.
- Abstract(参考訳): 現実的な世界モデル(observation $\times$ action $\rightarrow$ Observation)と動的モデル(observation $\times$ observed $\rightarrow$ action)は、どのようにして、アクションが言語を通して表現されるのか?
オープンソースファウンデーションモデルはどちらも苦労していますが、それらを微調整して、監督を通じて動的モデルを取得することは、世界モデルを取得するよりもはるかに簡単です。
逆に、ダイナミックスモデルは、2つの主要な戦略を通じて世界モデルのブートストラップに使用できる。
1【合成データからの弱教師付き学習】
2)推測時間検証。
まず、ダイナミックスモデルにより、ビデオフレームのアンラベリングなペアに対するアクションをアノテートし、トレーニングデータを拡張できる。
さらに、認識モデルにより予測されるように、観測ペア内の画像トークンがその重要性によって重み付けされる新しい目的を提案する。
第二に、ダイナミクスモデルでは、世界モデルの複数のサンプルに報酬を割り当ててスコア付けし、推論時の探索を効果的に導くことができる。
我々は,Aurora-Bench上でのアクション中心の画像編集作業を通じて,両方の戦略から得られる世界モデルを評価する。
GPT4o-as-judge による実世界のサブセットで 15 % のマージンを向上し,Aurora-Bench のすべてのサブセットで最高の人的評価を実現する。
関連論文リスト
- We Should Chart an Atlas of All the World's Models [37.19719066562013]
我々は、モデルアトラスと呼ばれる統一された構造で世界のモデル人口をチャート化することを提唱する。
Model Atlasは、モデル法医学、メタML研究、モデル発見の応用を可能にする。
論文 参考訳(メタデータ) (2025-03-13T17:59:53Z) - Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文 参考訳(メタデータ) (2024-05-20T22:51:05Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。