論文の概要: Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback
- arxiv url: http://arxiv.org/abs/2512.22336v1
- Date: Fri, 26 Dec 2025 18:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.004092
- Title: Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback
- Title(参考訳): Agent2World: 適応型マルチエージェントフィードバックによるシンボリックワールドモデル生成学習
- Authors: Mengkang Hu, Bowei Xia, Yuran Wu, Ailing Yu, Yude Zou, Qiguang Chen, Shijian Wang, Jiarui Jin, Kexin Li, Wenxiang Jiao, Yuan Lu, Ping Luo,
- Abstract要約: Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
- 参考スコア(独自算出の注目度): 51.22403664895878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic world models (e.g., PDDL domains or executable simulators) are central to model-based planning, but training LLMs to generate such world models is limited by the lack of large-scale verifiable supervision. Current approaches rely primarily on static validation methods that fail to catch behavior-level errors arising from interactive execution. In this paper, we propose Agent2World, a tool-augmented multi-agent framework that achieves strong inference-time world-model generation and also serves as a data engine for supervised fine-tuning, by grounding generation in multi-agent feedback. Agent2World follows a three-stage pipeline: (i) A Deep Researcher agent performs knowledge synthesis by web searching to address specification gaps; (ii) A Model Developer agent implements executable world models; And (iii) a specialized Testing Team conducts adaptive unit testing and simulation-based validation. Agent2World demonstrates superior inference-time performance across three benchmarks spanning both Planning Domain Definition Language (PDDL) and executable code representations, achieving consistent state-of-the-art results. Beyond inference, Testing Team serves as an interactive environment for the Model Developer, providing behavior-aware adaptive feedback that yields multi-turn training trajectories. The model fine-tuned on these trajectories substantially improves world-model generation, yielding an average relative gain of 30.95% over the same model before training. Project page: https://agent2world.github.io.
- Abstract(参考訳): シンボリックワールドモデル(PDDLドメインや実行可能シミュレータなど)はモデルベース計画の中心であるが、そのような世界モデルを生成するためのLCMの訓練は、大規模に検証可能な監督が欠如しているため限られている。
現在のアプローチは主に、インタラクティブな実行に起因する振る舞いレベルのエラーをキャッチできない静的なバリデーションメソッドに依存しています。
本稿では,強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークであるAgent2Worldを提案する。
Agent2Worldは3段階のパイプラインに従っている。
i)Deep Researcherエージェントは,仕様のギャップに対処するためのWeb検索による知識合成を行う。
(ii)Model Developer Agentは実行可能な世界モデルを実装します。
(iii) 特殊なテストチームが適応的な単体テストとシミュレーションベースの検証を実施します。
Agent2Worldは、計画ドメイン定義言語(PDDL)と実行可能なコード表現の両方にまたがる3つのベンチマークで優れた推論時間性能を示し、一貫した最先端の結果を達成する。
推論以外にも、Testing Teamは、モデル開発者のためのインタラクティブな環境として機能し、マルチターントレーニングトラジェクトリを生成する行動対応フィードバックを提供する。
これらの軌道上で微調整されたモデルは、世界モデル生成を大幅に改善し、トレーニング前に同じモデルに対して平均的な相対的な利得が30.95%になる。
プロジェクトページ: https://agent2world.github.io
関連論文リスト
- VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - World Model Implanting for Test-time Adaptation of Embodied Agents [29.514831254621438]
具体的AIにおいて、永続的な課題は、エージェントが広範なデータ収集や再トレーニングを必要とせずに、新しいドメインへの堅牢な適応を可能にすることである。
本稿では、大規模言語モデルの推論能力と、独立に学習されたドメイン固有世界モデルを組み合わせた世界モデル埋め込みフレームワーク(WorMI)を提案する。
我々は、VirtualHomeとALFWorldのベンチマークでWorMIを評価し、いくつかのLSMベースのアプローチと比較して、ゼロショットと少数ショットのパフォーマンスが優れていることを示した。
論文 参考訳(メタデータ) (2025-09-04T07:32:16Z) - Transformer World Model for Sample Efficient Multi-Agent Reinforcement Learning [2.3964255330849356]
我々は、強化学習のための新しいトランスフォーマーベース世界モデルであるMulti-Agent Transformer World Model(MATWM)を提案する。
MATWMは、分散化された想像力フレームワークと半集中型の批評家とチームメイト予測モジュールを組み合わせる。
我々は,StarCraft Multi-Agent Challenge, PettingZoo, MeltingPotなど,幅広いベンチマークでMATWMを評価した。
論文 参考訳(メタデータ) (2025-06-23T11:47:17Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - TrajAgent: An LLM-Agent Framework for Trajectory Modeling via Large-and-Small Model Collaboration [10.000248410171269]
軌道モデリングは、生活サービス、都市交通、行政などの分野で広く応用されている。
本稿では,大規模言語モデルを用いたエージェントフレームワークであるTrajAgentを提案する。
4つの実世界のデータセットを用いた5つのタスクの実験において、TrijAgentはベースライン法よりも2.38%-69.91%の性能向上を達成した。
論文 参考訳(メタデータ) (2024-10-27T13:51:09Z) - Automating Traffic Model Enhancement with AI Research Agent [4.420199777075044]
TR-Agentは、交通モデルを自律的に開発、洗練するAI駆動のフレームワークである。
我々は,研究パイプラインを,アイデア生成,理論定式化,理論評価,反復最適化の4つの重要な段階に構成する。
反復的なフィードバックと改善により、TR-Agentはモデリング効率と効率の両方を改善している。
論文 参考訳(メタデータ) (2024-09-25T12:42:25Z) - Multiscale Generative Models: Improving Performance of a Generative
Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。
我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。
本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-24T13:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。