論文の概要: Compositional Foundation Models for Hierarchical Planning
- arxiv url: http://arxiv.org/abs/2309.08587v1
- Date: Fri, 15 Sep 2023 17:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:20:27.586260
- Title: Compositional Foundation Models for Hierarchical Planning
- Title(参考訳): 階層的計画のための構成基礎モデル
- Authors: Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi
Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal
- Abstract要約: 本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
- 参考スコア(独自算出の注目度): 46.7495935027167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To make effective decisions in novel environments with long-horizon goals, it
is crucial to engage in hierarchical reasoning across spatial and temporal
scales. This entails planning abstract subgoal sequences, visually reasoning
about the underlying plans, and executing actions in accordance with the
devised plan through visual-motor control. We propose Compositional Foundation
Models for Hierarchical Planning (HiP), a foundation model which leverages
multiple expert foundation model trained on language, vision and action data
individually jointly together to solve long-horizon tasks. We use a large
language model to construct symbolic plans that are grounded in the environment
through a large video diffusion model. Generated video plans are then grounded
to visual-motor control, through an inverse dynamics model that infers actions
from generated videos. To enable effective reasoning within this hierarchy, we
enforce consistency between the models via iterative refinement. We illustrate
the efficacy and adaptability of our approach in three different long-horizon
table-top manipulation tasks.
- Abstract(参考訳): 長期的目標を持つ新しい環境において効果的な意思決定を行うためには,空間的・時間的規模で階層的推論を行うことが重要である。
これには、抽象的なサブゴアシーケンスの計画、基礎となる計画の視覚的な推論、視覚運動制御によって考案された計画に従って行動を実行することが含まれる。
本研究では,言語,視覚,行動データに基づいて個別に訓練された複数の専門的基礎モデルを活用した階層的計画のための構成的基礎モデル(HiP)を提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号計画を構築するために,大規模言語モデルを用いる。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
この階層内で効果的な推論を可能にするために、反復的洗練を通じてモデル間の一貫性を強制する。
3つの異なる長方形テーブルトップ操作タスクにおいて,提案手法の有効性と適応性を示す。
関連論文リスト
- Egocentric Vision Language Planning [44.436317004108105]
我々は,大規模マルチモーダルモデル (LMM) とtext2image モデルを利用して,より一般的なエンボディエージェントを構築することを検討する。
本稿では,エゴ中心型視覚言語計画法(EgoPlan)を提案する。
論文 参考訳(メタデータ) (2024-08-11T15:37:29Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - FloorGenT: Generative Vector Graphic Model of Floor Plans for Robotics [5.71097144710995]
フロアプランを特定の視点から見たラインセグメントのシーケンスとしてモデル化することにより、最近の自己回帰シーケンスモデリングの進歩をフロアプランのモデル化と予測に活用できることが示される。
論文 参考訳(メタデータ) (2022-03-07T13:42:48Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - Predictive Control Using Learned State Space Models via Rolling Horizon
Evolution [2.1016374925364616]
本稿では、進化的アルゴリズム計画手法と、ディープラーニングと変分推論を用いて学習したモデルを組み合わせたテーマについて検討する。
視覚ナビゲーションタスクのセットにおいて,オンラインプランニングを確実に行うエージェントを用いて,このアプローチを実証する。
論文 参考訳(メタデータ) (2021-06-25T23:23:42Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Latent Space Roadmap for Visual Action Planning of Deformable and Rigid
Object Manipulation [74.88956115580388]
プランニングは、イメージを埋め込んだ低次元の潜在状態空間で行われる。
我々のフレームワークは2つの主要なコンポーネントで構成されており、画像のシーケンスとして視覚的な計画を生成するビジュアル・フォレスト・モジュール(VFM)と、それら間のアクションを予測するアクション・プロポーザル・ネットワーク(APN)である。
論文 参考訳(メタデータ) (2020-03-19T18:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。