論文の概要: Reinforcement World Model Learning for LLM-based Agents
- arxiv url: http://arxiv.org/abs/2602.05842v1
- Date: Thu, 05 Feb 2026 16:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.038091
- Title: Reinforcement World Model Learning for LLM-based Agents
- Title(参考訳): LLMエージェントの強化ワールドモデル学習
- Authors: Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu,
- Abstract要約: 強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
- 参考スコア(独自算出の注目度): 60.65003139516272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved strong performance in language-centric tasks. However, in agentic settings, LLMs often struggle to anticipate action consequences and adapt to environment dynamics, highlighting the need for world-modeling capabilities in LLM-based agents. We propose Reinforcement World Model Learning (RWML), a self-supervised method that learns action-conditioned world models for LLM-based agents on textual states using sim-to-real gap rewards. Our method aligns simulated next states produced by the model with realized next states observed from the environment, encouraging consistency between internal world simulations and actual environment dynamics in a pre-trained embedding space. Unlike next-state token prediction, which prioritizes token-level fidelity (i.e., reproducing exact wording) over semantic equivalence and can lead to model collapse, our method provides a more robust training signal and is empirically less susceptible to reward hacking than LLM-as-a-judge. We evaluate our method on ALFWorld and $τ^2$ Bench and observe significant gains over the base model, despite being entirely self-supervised. When combined with task-success rewards, our method outperforms direct task-success reward RL by 6.9 and 5.7 points on ALFWorld and $τ^2$ Bench respectively, while matching the performance of expert-data training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語中心のタスクにおいて強力なパフォーマンスを実現している。
しかし、エージェント環境では、LLMはアクションの結果を予測し、環境力学に適応するのに苦労し、LLMベースのエージェントで世界モデリング能力の必要性を強調している。
本研究では,LLMをベースとしたエージェントの行動条件付き世界モデルを,Sim-to-realギャップ報酬を用いてテキスト状態から学習する自己教師付き手法であるReinforcement World Model Learning (RWML)を提案する。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させ, 事前学習した埋め込み空間における内界シミュレーションと実際の環境力学との整合性を促進させる。
トークンレベルの忠実度を意味的等価性よりも優先し,モデル崩壊につながる次世代トークン予測とは異なり,本手法はより堅牢なトレーニング信号を提供するとともに,LLM-as-a-judgeよりもハッキングに対する報奨性が低い。
我々は ALFWorld と $τ^2$ Bench で本手法を評価し,完全に自己監督されているにもかかわらず,ベースモデルに対する大きな利得を観測した。
ALFWorldと$τ^2$ Benchでそれぞれ6.9ポイント,5.7ポイントのタスク・サクセス報酬を達成できた。
関連論文リスト
- Internalizing World Models via Self-Play Finetuning for Agentic RL [65.96875390986655]
エージェントとしての大規模言語モデル(LLM)は、しばしばアウト・オブ・ディストリビューション(OOD)のシナリオで苦労する。
状態表現と遷移モデリングという2つのコンポーネントに分解することで、この世界モデルをエンコードする方法を示す。
SPAは,世界モデルを学習するために,セルフプレイ指導による微調整段階を通じてポリシーを冷やし始める,シンプルな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T18:03:39Z) - Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds [2.9165586612027234]
ファンデーションモデル(FM)は、幅広い知識と推論能力を持つため、サンプル効率を改善するための自然な候補である。
我々は,FMの事前知識を活かした基礎世界モデル(FWM)を用いて,シミュレーションインタラクションによるエージェントの訓練と評価を行う。
第2に、意思決定にFMの推論能力を利用する基礎エージェント(FA)について検討する。
論文 参考訳(メタデータ) (2025-09-19T12:10:28Z) - RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。
マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。
提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文 参考訳(メタデータ) (2025-05-31T07:38:41Z) - WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.64361927346957]
本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。
また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。
WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
論文 参考訳(メタデータ) (2025-04-22T10:58:27Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。