論文の概要: Language-conditioned world model improves policy generalization by reading environmental descriptions
- arxiv url: http://arxiv.org/abs/2511.22904v1
- Date: Fri, 28 Nov 2025 06:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.785285
- Title: Language-conditioned world model improves policy generalization by reading environmental descriptions
- Title(参考訳): 言語条件付き世界モデルは環境記述を読み取って政策一般化を改善する
- Authors: Anh Nguyen, Stefan Lee,
- Abstract要約: 実世界の人間と効果的に対話するためには,エージェントが環境のダイナミクスを記述する言語を理解することが重要である。
本研究では,言語条件付き世界モデルを環境との相互作用によって学習するモデルに基づく強化学習手法を提案する。
LED-WMでトレーニングされたポリシーは、新しいダイナミクスや言語によって記述された見えないゲームに対して、より効果的に一般化されていることを示す。
- 参考スコア(独自算出の注目度): 20.07554058793324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To interact effectively with humans in the real world, it is important for agents to understand language that describes the dynamics of the environment--that is, how the environment behaves--rather than just task instructions specifying "what to do". Understanding this dynamics-descriptive language is important for human-agent interaction and agent behavior. Recent work address this problem using a model-based approach: language is incorporated into a world model, which is then used to learn a behavior policy. However, these existing methods either do not demonstrate policy generalization to unseen games or rely on limiting assumptions. For instance, assuming that the latency induced by inference-time planning is tolerable for the target task or expert demonstrations are available. Expanding on this line of research, we focus on improving policy generalization from a language-conditioned world model while dropping these assumptions. We propose a model-based reinforcement learning approach, where a language-conditioned world model is trained through interaction with the environment, and a policy is learned from this model--without planning or expert demonstrations. Our method proposes Language-aware Encoder for Dreamer World Model (LED-WM) built on top of DreamerV3. LED-WM features an observation encoder that uses an attention mechanism to explicitly ground language descriptions to entities in the observation. We show that policies trained with LED-WM generalize more effectively to unseen games described by novel dynamics and language compared to other baselines in several settings in two environments: MESSENGER and MESSENGER-WM.To highlight how the policy can leverage the trained world model before real-world deployment, we demonstrate the policy can be improved through fine-tuning on synthetic test trajectories generated by the world model.
- Abstract(参考訳): 実世界の人間と効果的に対話するためには、エージェントが環境のダイナミクス、つまり環境がどのように振る舞うかを記述する言語を理解することが重要である。
この動的記述言語を理解することは、人間とエージェントの相互作用とエージェントの振る舞いにとって重要である。
言語は世界モデルに組み込まれ、行動ポリシーを学習するために使用される。
しかし、これらの既存の手法は、目に見えないゲームに対するポリシーの一般化を示さないか、あるいは仮定の制限に依存している。
例えば、推論時間計画によって引き起こされる遅延が、対象のタスクや専門家によるデモンストレーションに対して許容可能であると仮定する。
本研究は,これらの仮定を廃止しつつ,言語条件付き世界モデルによる政策一般化の改善に焦点をあてる。
本研究では,言語条件付き世界モデルが環境との相互作用を通じて訓練されるモデルに基づく強化学習手法を提案する。
本稿では,DreamerV3上に構築されたDreamer World Model (LED-WM) のための言語対応エンコーダを提案する。
LED-WMは、注意機構を使用して、観察中のエンティティに言語記述を明確にグラウンドする観察エンコーダを備えている。
我々は,LED-WMでトレーニングされたポリシーが,実世界展開前にトレーニングされた世界モデルをどのように活用できるかを明らかにするために,世界モデルが生成した人工的なテスト軌跡を微調整することで,そのポリシーを改善できることを実証する。
関連論文リスト
- Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios [0.0]
この作業では、ゼロショットの現実シナリオに対処するDynamic Context-Aware Scene Reasoningフレームワークを導入している。
提案手法は、学習済みの視覚変換器と大規模言語モデルを統合し、視覚意味論と自然言語記述を整合させる。
実験では、複雑で見えない環境でのベースラインモデルよりも、シーン理解の精度が最大で18%向上した。
論文 参考訳(メタデータ) (2025-10-30T15:07:55Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Language-Guided World Models: A Model-Based Approach to AI Control [31.9089380929602]
本稿では,LWM(Language-Guided World Models)の概念を紹介する。
LWMは、テキストを読むことで環境をシミュレートできる確率モデルである。
構成言語記述を一般化できる堅牢なLWMを開発するための最初のステップを採る。
論文 参考訳(メタデータ) (2024-01-24T03:11:36Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Emergent Communication with World Models [80.55287578801008]
本稿では,自然言語メッセージを解釈する言語条件生成モデルのクラスであるLanguage World Modelsを紹介する。
我々は、この「観測」を永続記憶状態に組み込んで、リスニングエージェントのポリシーを条件付けします。
これにより、2次元グリッドワールド話者リスナーナビゲーションタスクにおける効果的なコミュニケーションとタスク成功が向上することを示す。
論文 参考訳(メタデータ) (2020-02-22T02:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。