論文の概要: COMAP: Co-Evolving World Models and Agent Policies for LLM Agents
- arxiv url: http://arxiv.org/abs/2606.02372v1
- Date: Mon, 01 Jun 2026 15:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.382181
- Title: COMAP: Co-Evolving World Models and Agent Policies for LLM Agents
- Title(参考訳): COMAP:LLMエージェントのための世界モデルとエージェントポリシーの共同開発
- Authors: Youwei Liu, Jian Wang, Hanlin Wang, Wenjie Li,
- Abstract要約: COMAPは、クローズドループインタラクションを通じてテキストワールドモデルとエージェントポリシーを共進化させる新しいフレームワークである。
各決定ステップにおいて、世界モデルは、候補行動に対する将来の状態フィードバックを予測し、エージェントは、このフィードバックの信頼性を推定して、将来の状態リフレクションを行う。
結果として生じるオンライン軌道は、自己蒸留によって世界モデルを更新するために使用され、エージェントの進化する相互作用分布によく一致する。
- 参考スコア(独自算出の注目度): 14.918267305899619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equipping language agents with world models enables them to anticipate environment dynamics and evaluate candidate actions before execution. However, existing textual world models are typically fixed after training, preventing them from adapting to the on-policy state-action distributions induced by an evolving agent. Meanwhile, agent-improvement methods often rely on external rewards or verifiers, limiting their applicability in realistic interactive environments. In this paper, we propose COMAP, a novel framework that co-evolves textual world models and agent policies through closed-loop interaction. At each decision step, the world model predicts future state feedback for candidate actions, and the agent performs future-aware reflection by estimating the reliability of this feedback and refining its action accordingly. The resulting on-policy trajectories are then used to update the world model via self-distillation, allowing it to better match the agent's evolving interaction distribution. Across embodied task planning, Web navigation, and tool-use benchmarks, COMAP consistently outperforms competitive baselines, e.g., +16.75% relative improvement with Qwen3-4B. Further analyses show that the co-evolutionary loop improves the world model's prediction accuracy over time and leads to more effective long-horizon decision-making. Our code is available at: https://github.com/loyiv/CoMAP.
- Abstract(参考訳): 言語エージェントをワールドモデルで取得することで、実行前に環境のダイナミクスを予測し、候補アクションを評価することができる。
しかし、既存のテキストワールドモデルは通常、訓練後に固定され、進化するエージェントによって引き起こされる政治上の状態-行動分布に適応しない。
一方、エージェント改善手法は、しばしば外部の報酬や検証に頼り、現実的な対話環境における適用性を制限する。
本稿では,閉ループ相互作用によるテキストワールドモデルとエージェントポリシーを共進化させる新しいフレームワークであるCOMAPを提案する。
各決定ステップにおいて、世界モデルは、候補行動に対する将来の状態フィードバックを予測し、エージェントは、このフィードバックの信頼性を推定し、それに応じてその動作を精査することにより、将来の状態リフレクションを行う。
結果として生じるオンライン軌道は、自己蒸留によって世界モデルを更新するために使用され、エージェントの進化する相互作用分布によく一致する。
具体化されたタスク計画、Webナビゲーション、ツール使用ベンチマークの他、COMAPはQwen3-4Bと競合するベースライン、例えば+16.75%の相対的な改善を一貫して上回っている。
さらなる分析により、共進化ループは時間とともに世界モデルの予測精度を向上し、より効果的な長期的意思決定につながることが示された。
私たちのコードは、https://github.com/loyiv/CoMAP.comで利用可能です。
関連論文リスト
- How Mobile World Model Guides GUI Agents? [51.29718003718467]
デルタテキスト、フルテキスト、拡散ベースのイメージ、レンダリング可能なコードという、4つのモードでワールドモデルをトレーニングします。
これらのモデルはMobileWorldBenchとCode2WorldBenchの両方でSoTAのパフォーマンスを達成する。
低アクションエントロピーを持つ過信な移動体エージェントの場合、後部自己反射は限られた利得を与える。
論文 参考訳(メタデータ) (2026-05-11T10:49:31Z) - Beyond State Consistency: Behavior Consistency in Text-Based World Models [58.216587360435305]
本研究では,世界モデルと実環境の機能的整合性を改善することを目的とした,行動整合性トレーニングパラダイムを提案する。
WebShopとTextWorldの実験では、BehRベースのトレーニングによって、いくつかの設定における長期的なアライメントが改善されている。
論文 参考訳(メタデータ) (2026-04-15T12:56:45Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models [13.90532093512575]
エージェント学習のための統合フレームワークであるImagine-then-Plan(textttITP)を提案する。
最終目標とタスクの進捗をトレードオフすることで、適応的な新しいルックアヘッド機構を導入する。
実験の結果, TexttITP は競争ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-13T19:49:58Z) - AlignUSER: Human-Aligned LLM Agents via World Models for Recommender System Evaluation [0.7031557790463293]
人間のインタラクションから世界モデル駆動エージェントを学習するフレームワークであるAlignを紹介する。
実証に関する反事実的軌跡を生成し, LLMに人間の選択と判断を比較し, 準最適行動を特定し, 教訓を抽出するよう促す。
論文 参考訳(メタデータ) (2026-01-02T03:01:33Z) - Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。