論文の概要: Spatial Reasoning and Planning for Deep Embodied Agents
- arxiv url: http://arxiv.org/abs/2409.19479v1
- Date: Sat, 28 Sep 2024 23:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 22:57:44.731657
- Title: Spatial Reasoning and Planning for Deep Embodied Agents
- Title(参考訳): 深部吸収剤の空間推論と計画
- Authors: Shu Ishida,
- Abstract要約: この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can perform complex tasks with long-term objectives by planning, reasoning, and forecasting outcomes of actions. For embodied agents to achieve similar capabilities, they must gain knowledge of the environment transferable to novel scenarios with a limited budget of additional trial and error. Learning-based approaches, such as deep RL, can discover and take advantage of inherent regularities and characteristics of the application domain from data, and continuously improve their performances, however at a cost of large amounts of training data. This thesis explores the development of data-driven techniques for spatial reasoning and planning tasks, focusing on enhancing learning efficiency, interpretability, and transferability across novel scenarios. Four key contributions are made. 1) CALVIN, a differential planner that learns interpretable models of the world for long-term planning. It successfully navigated partially observable 3D environments, such as mazes and indoor rooms, by learning the rewards and state transitions from expert demonstrations. 2) SOAP, an RL algorithm that discovers options unsupervised for long-horizon tasks. Options segment a task into subtasks and enable consistent execution of the subtask. SOAP showed robust performances on history-conditional corridor tasks as well as classical benchmarks such as Atari. 3) LangProp, a code optimisation framework using LLMs to solve embodied agent problems that require reasoning by treating code as learnable policies. The framework successfully generated interpretable code with comparable or superior performance to human-written experts in the CARLA autonomous driving benchmark. 4) Voggite, an embodied agent with a vision-to-action transformer backend that solves complex tasks in Minecraft. It achieved third place in the MineRL BASALT Competition by identifying action triggers to segment tasks into multiple stages.
- Abstract(参考訳): 人間は、計画、推論、行動の結果の予測によって、長期的な目的で複雑なタスクを実行することができる。
実施エージェントが同様の能力を達成するためには、追加の試行錯誤の予算が限られている新しいシナリオに転送可能な環境に関する知識を得る必要がある。
深層RLのような学習ベースのアプローチは、データから固有の規則性やアプリケーションドメインの特徴を発見し、活用することができる。
この論文は、空間的推論と計画タスクのためのデータ駆動技術の開発を探求し、学習効率の向上、解釈可能性、新しいシナリオ間の伝達可能性に焦点を当てている。
主な貢献は4つある。
1)CALVINは、長期計画のために世界の解釈可能なモデルを学ぶ微分プランナーである。
熟練したデモンストレーションから報酬と状態遷移を学ぶことで、迷路や室内の部屋のような部分的に観察可能な3D環境をうまくナビゲートした。
2) SOAPは、長期的タスクに対して教師なしのオプションを発見するRLアルゴリズムである。
オプションはタスクをサブタスクに分割し、サブタスクの一貫性のある実行を可能にする。
SOAPは履歴条件付き回廊タスクとAtariのような古典的なベンチマークで堅牢なパフォーマンスを示した。
3)LangPropは、LLMを使ったコード最適化フレームワークで、学習可能なポリシーとしてコードを扱い、推論を必要とするエンボディエージェントの問題を解決する。
このフレームワークは、CARLA自動運転ベンチマークで人書きの専門家に匹敵する、あるいは優れたパフォーマンスで解釈可能なコードを生成することに成功した。
4) Voggiteは、Minecraftの複雑なタスクを解決するビジョン・ツー・アクション・トランスフォーマーバックエンドを備えたエンボディエージェントである。
これは、タスクを複数のステージに分割するアクショントリガーを特定することで、MineRL BASALTコンペティションで3位を獲得した。
関連論文リスト
- ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Deep transfer learning for partial differential equations under
conditional shift with DeepONet [0.0]
深層演算子ネットワーク(DeepONet)を用いた条件シフト下でのタスク固有学習のための新しいTLフレームワークを提案する。
条件埋め込み演算子理論に触発されて、ソース領域とターゲット特徴領域の間の統計的距離を測定する。
提案するTLフレームワークは,ソースドメインとターゲットドメインの間に大きな違いがあるにも関わらず,高速かつ効率的なマルチタスク演算子学習を可能にする。
論文 参考訳(メタデータ) (2022-04-20T23:23:38Z) - Flexible and Efficient Long-Range Planning Through Curious Exploration [13.260508939271764]
The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。
対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
論文 参考訳(メタデータ) (2020-04-22T21:47:29Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。