論文の概要: RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy
- arxiv url: http://arxiv.org/abs/2503.24388v1
- Date: Mon, 31 Mar 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:48.000049
- Title: RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy
- Title(参考訳): RIG:エンド・ツー・エンドのジェネリスト政策における推論とイマジネーションのシンセサイザー化
- Authors: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen,
- Abstract要約: アクションの前に推論し、潜在的な成果を想像することは、複雑なオープンワールド環境で動作するエンボディエージェントにとって不可欠である。
本稿では,レアソン化とイマジネーションをエンド・ツー・エンドのジェネラル・ポリシーで相乗化するための最初の試みを行う。
- 参考スコア(独自算出の注目度): 19.706679353866395
- License:
- Abstract: Reasoning before action and imagining potential outcomes (i.e., world models) are essential for embodied agents operating in complex open-world environments. Yet, prior work either incorporates only one of these abilities in an end-to-end agent or integrates multiple specialized models into an agent system, limiting the learning efficiency and generalization of the policy. Thus, this paper makes the first attempt to synergize Reasoning and Imagination in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end manner, we construct a data pipeline that progressively integrates and enriches the content of imagination and reasoning in the trajectories collected from existing agents. The joint learning of reasoning and next image generation explicitly models the inherent correlation between reasoning, action, and dynamics of environments, and thus exhibits more than $17\times$ sample efficiency improvements and generalization in comparison with previous works. During inference, RIG first reasons about the next action, produces potential action, and then predicts the action outcomes, which offers the agent a chance to review and self-correct based on the imagination before taking real actions. Experimental results show that the synergy of reasoning and imagination not only improves the robustness, generalization, and interoperability of generalist policy but also enables test-time scaling to enhance overall performance.
- Abstract(参考訳): アクションの前に推論し、潜在的な結果(つまり世界モデル)を想像することは、複雑なオープンワールド環境で動作するエンボディエージェントにとって不可欠である。
しかし、事前の作業では、エンド・ツー・エンドのエージェントにこれらの能力の1つしか組み込まれていないか、複数の専門モデルをエージェントシステムに統合し、学習効率とポリシーの一般化を制限している。
そこで本論文は,Reasoning and Imagination を RIG と呼ばれるエンドツーエンドのジェネラリスト政策でシナジ化するための最初の試みである。
エンドツーエンドでRIGを訓練するために、既存のエージェントから収集された軌跡における想像と推論の内容を段階的に統合し、強化するデータパイプラインを構築した。
推論と次の画像生成の合同学習は、推論、行動、および環境のダイナミクスの固有の相関を明示的にモデル化し、従って、以前の研究と比較すると、17ドル以上のサンプル効率の改善と一般化が示される。
推論の間、RIGはまず次のアクションについて理由を定め、潜在的なアクションを生成し、次にアクションの結果を予測する。
実験結果から, 推論と想像の相乗効果は, 一般政策の堅牢性, 一般化, 相互運用性を向上するだけでなく, 総合的な性能向上にも有効であることがわかった。
関連論文リスト
- Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Learning the Effects of Physical Actions in a Multi-modal Environment [17.757831697284498]
大規模言語モデル(LLM)は、物理的コモンセンス情報を不十分に扱う。
本稿では,現実的な感覚入力のみから行動の結果を予測するマルチモーダルタスクを提案する。
マルチモーダルモデルでは、視覚情報で拡張した場合に、物理的なコモンセンスをキャプチャできることを示す。
論文 参考訳(メタデータ) (2023-01-27T16:49:52Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Decision-Making Among Bounded Rational Agents [5.24482648010213]
本稿では,情報理論の観点からの有界合理性の概念をゲーム理論の枠組みに導入する。
これにより、ロボットは他のエージェントの準最適動作を推論し、計算上の制約の下で行動することができる。
その結果,ロボットが他のエージェントの理性行動の異なるレベルを推論し,その計算制約の下で合理的な戦略を計算できることが実証された。
論文 参考訳(メタデータ) (2022-10-17T00:29:24Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - One-shot Policy Elicitation via Semantic Reward Manipulation [2.668480521943575]
本稿では,新たなシーケンシャル最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards (SPEAR)について述べる。
本研究では,SPEARが実行時および対応可能な問題サイズにおいて,最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-01-06T04:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。