Fugu-MT 論文翻訳(概要): Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models

論文の概要: Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models

arxiv url: http://arxiv.org/abs/2506.06006v1
Date: Fri, 06 Jun 2025 11:50:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 21:34:56.769485
Title: Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
Title（参考訳）: マルチモーダルファンデーションモデルにおけるダイナミクスモデルからのブートストラップ世界モデル
Authors: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti,
Abstract要約: 我々は動的モデルを用いて、合成データと推論時間検証を用いて世界モデルをブートストラップする。 GPT4o-as-judgeによると、我々の最良のモデルは、最先端の画像編集モデルと性能を競い合っており、実世界のサブセットでは15%のマージンで改善されている。
参考スコア（独自算出の注目度）: 37.774994737939394
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To what extent do vision-and-language foundation models possess a realistic world model (observation $\times$ action $\rightarrow$ observation) and a dynamics model (observation $\times$ observation $\rightarrow$ action), when actions are expressed through language? While open-source foundation models struggle with both, we find that fine-tuning them to acquire a dynamics model through supervision is significantly easier than acquiring a world model. In turn, dynamics models can be used to bootstrap world models through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, the dynamics model can annotate actions for unlabelled pairs of video frame observations to expand the training data. We further propose a new objective, where image tokens in observation pairs are weighted by their importance, as predicted by a recognition model. Secondly, the dynamics models can assign rewards to multiple samples of the world model to score them, effectively guiding search at inference time. We evaluate the world models resulting from both strategies through the task of action-centric image editing on Aurora-Bench. Our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin of $15\%$ on real-world subsets according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.
Abstract（参考訳）: 現実的な世界モデル(observation $\times$ action $\rightarrow$ Observation)と動的モデル(observation $\times$ observed $\rightarrow$ action)は、どのようにして、アクションが言語を通して表現されるのか? オープンソースファウンデーションモデルはどちらも苦労していますが、それらを微調整して、監督を通じて動的モデルを取得することは、世界モデルを取得するよりもはるかに簡単です。逆に、ダイナミックスモデルは、2つの主要な戦略を通じて世界モデルのブートストラップに使用できる。 1【合成データからの弱教師付き学習】 2)推測時間検証。まず、ダイナミックスモデルにより、ビデオフレームのアンラベリングなペアに対するアクションをアノテートし、トレーニングデータを拡張できる。さらに、認識モデルにより予測されるように、観測ペア内の画像トークンがその重要性によって重み付けされる新しい目的を提案する。第二に、ダイナミクスモデルでは、世界モデルの複数のサンプルに報酬を割り当ててスコア付けし、推論時の探索を効果的に導くことができる。我々は,Aurora-Bench上でのアクション中心の画像編集作業を通じて,両方の戦略から得られる世界モデルを評価する。 GPT4o-as-judge による実世界のサブセットで 15 % のマージンを向上し,Aurora-Bench のすべてのサブセットで最高の人的評価を実現する。

関連論文リスト

GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
We Should Chart an Atlas of All the World's Models [37.19719066562013]
我々は、モデルアトラスと呼ばれる統一された構造で世界のモデル人口をチャート化することを提唱する。 Model Atlasは、モデル法医学、メタML研究、モデル発見の応用を可能にする。
論文参考訳（メタデータ） (2025-03-13T17:59:53Z)
WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文参考訳（メタデータ） (2025-02-28T03:58:23Z)
Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文参考訳（メタデータ） (2024-09-18T19:28:04Z)
Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。 DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文参考訳（メタデータ） (2024-05-20T22:51:05Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文参考訳（メタデータ） (2023-09-30T11:38:13Z)
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (2023-07-30T09:48:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。