論文の概要: Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
- arxiv url: http://arxiv.org/abs/2601.08955v1
- Date: Tue, 13 Jan 2026 19:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.153503
- Title: Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
- Title(参考訳): imag-then-Plan:世界モデルを用いた適応型ルックアヘッドからのエージェント学習
- Authors: Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li,
- Abstract要約: エージェント学習のための統合フレームワークであるImagine-then-Plan(textttITP)を提案する。
最終目標とタスクの進捗をトレードオフすることで、適応的な新しいルックアヘッド機構を導入する。
実験の結果, TexttITP は競争ベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 13.90532093512575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (\texttt{ITP}), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially \textit{observable} and \textit{imaginable} Markov decision process to guide policy learning. We instantiate \texttt{ITP} with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that \texttt{ITP} significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.
- Abstract(参考訳): 世界モデルの最近の進歩は、エージェントが実際の環境にアクセスすることなく、推論と行動を可能にする、将来の環境状態のダイナミクスをモデル化することを約束している。
現在の手法は主に単一ステップまたは固定水平ロールアウトを実行し、複雑なタスク計画の可能性を未公開のまま残している。
エージェントのポリシーモデルが学習された世界モデルと相互作用し,多段階の「想像」軌道を導出する,エージェント学習のための統合フレームワークであるImagine-then-Plan(\texttt{ITP})を提案する。
課題や段階によって想像力の地平線が変化する可能性があるので、最終的な目標とタスクの進捗をトレードオフすることによって、適応的なルックアヘッド機構を導入する。
得られた想像軌道は、達成された進歩や潜在的な衝突のような将来の結果についての豊富なシグナルを与え、これは現在の観測と融合し、政策学習を導くために部分的に \textit{observable} と \textit{imaginable} のマルコフ決定プロセスを形成する。
トレーニングフリー版と強化トレーニング版の両方で \texttt{ITP} をインスタンス化する。
代表エージェントベンチマークの広範な実験は、 \texttt{ITP} が競争基準線を著しく上回ることを示した。
さらなる分析により、我々の適応的なルックアヘッドはエージェントの推論能力を大きく向上させ、より広範な複雑なタスクに対処するための貴重な洞察を提供する。
関連論文リスト
- Current Agents Fail to Leverage World Model as Tool for Foresight [61.82522354207919]
エージェントは、行動する前に結果を予測するためにそれらを使用できます。
本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2026-01-07T13:15:23Z) - PerspAct: Enhancing LLM Situated Collaboration Skills through Perspective Taking and Active Vision [2.32300953742759]
本研究では、ReActフレームワークを用いた多様な視点を明示的に取り入れることで、LLMが他のエージェントの要求を理解し、理解する能力を高めることができるかどうかを評価する。
視線撮影の複雑さを増大させる7つのシナリオからなる、アクティブな視覚探索を紹介します。
提案手法は, 探索戦略と組み合わせることで, モデルの解釈精度と協調的有効性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-11-11T10:54:15Z) - Edge General Intelligence Through World Models and Agentic AI: Fundamentals, Solutions, and Challenges [87.02855999212817]
エッジ・ジェネラル・インテリジェンス(エッジ・ジェネラル・インテリジェンス、Edge General Intelligence、EGI)は、分散エージェントが自律的に知覚、理性、行動する能力を持つエッジ・コンピューティングの変革的進化を表す。
世界モデルは、将来の軌跡を予測するだけでなく、積極的に想像するプロアクティブな内部シミュレーターとして機能し、不確実性の理由を定め、予見で多段階のアクションを計画する。
この調査は、世界モデルがどのようにエージェント人工知能(AI)システムをエッジで強化できるかを包括的に分析することで、ギャップを埋める。
論文 参考訳(メタデータ) (2025-08-13T07:29:40Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Grounded Answers for Multi-agent Decision-making Problem through Generative World Model [27.263093790379024]
生成モデルは、複雑なマルチエージェント決定問題に対するスケッチ的で誤解を招くソリューションをしばしば生み出す。
本稿では,言語誘導シミュレータをマルチエージェント強化学習パイプラインに統合し,生成した回答を強化するパラダイムを示す。
特に、一貫した相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成し、未来の生成モデルを訓練するための道を開くことができる。
論文 参考訳(メタデータ) (2024-10-03T16:49:59Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。