論文の概要: Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty
- arxiv url: http://arxiv.org/abs/2312.01097v1
- Date: Sat, 2 Dec 2023 10:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:19:47.204508
- Title: Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty
- Title(参考訳): In-Paintingとしてのプランニング:不確実性を考慮した拡散型タスクプランニングフレームワーク
- Authors: Cheng-Fu Yang, Haoyang Xu, Te-Lin Wu, Xiaofeng Gao, Kai-Wei Chang,
Feng Gao
- Abstract要約: 具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 56.30846158280031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task planning for embodied AI has been one of the most challenging problems
where the community does not meet a consensus in terms of formulation. In this
paper, we aim to tackle this problem with a unified framework consisting of an
end-to-end trainable method and a planning algorithm. Particularly, we propose
a task-agnostic method named 'planning as in-painting'. In this method, we use
a Denoising Diffusion Model (DDM) for plan generation, conditioned on both
language instructions and perceptual inputs under partially observable
environments. Partial observation often leads to the model hallucinating the
planning. Therefore, our diffusion-based method jointly models both state
trajectory and goal estimation to improve the reliability of the generated
plan, given the limited available information at each step. To better leverage
newly discovered information along the plan execution for a higher success
rate, we propose an on-the-fly planning algorithm to collaborate with the
diffusion-based planner. The proposed framework achieves promising performances
in various embodied AI tasks, including vision-language navigation, object
manipulation, and task planning in a photorealistic virtual environment. The
code is available at: https://github.com/joeyy5588/planning-as-inpainting.
- Abstract(参考訳): 具体的AIのためのタスクプランニングは、コミュニティが定式化に関して合意に達していない最も難しい問題の1つです。
本稿では,エンドツーエンドのトレーニング可能な手法と計画アルゴリズムを組み合わせた統合フレームワークを用いて,この問題に対処することを目的とする。
特に,「インペイントとしての計画」というタスク非依存の手法を提案する。
本手法では,部分的に観測可能な環境下での言語命令と知覚入力の両方を条件に,計画生成にDenoising Diffusion Model (DDM) を用いる。
部分的な観察は、しばしば計画の幻覚をモデルに導く。
そこで本手法は,各ステップで利用可能な限られた情報を考えると,状態軌跡と目標推定を併用して生成した計画の信頼性を向上させる。
計画実行に伴う新規発見情報をより高い成功率で活用するために,拡散型プランナと協調するオンザフライ計画アルゴリズムを提案する。
提案フレームワークは、視覚言語ナビゲーション、オブジェクト操作、フォトリアリスティックな仮想環境におけるタスク計画など、様々なAIタスクにおいて有望なパフォーマンスを実現する。
コードは以下の通り。 https://github.com/joeyy5588/planning-as-inpainting。
関連論文リスト
- PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - Behaviour Planning: A Toolkit for Diverse Planning [1.2213833413853037]
EmphBehaviour Planningは、モジュラーの多様性モデルに基づいて、多様なプランを生成できる多様な計画ツールキットである。
本稿では,多様性モデルを記述するための定性的なフレームワーク,任意の多様性モデルに沿った計画を作成するための計画手法,SMTに基づく行動プランナの実践的実装について述べる。
論文 参考訳(メタデータ) (2024-05-07T13:18:22Z) - Path Planning based on 2D Object Bounding-box [8.082514573754954]
都会の運転シナリオにおける模倣学習を通じて開発された物体の2次元境界ボックスを利用する経路計画法を提案する。
これは、高精細(HD)マップデータと周囲のカメラが捉えた画像を統合することで実現される。
我々は, nuPlan計画課題におけるモデルの評価を行い, 既存のビジョン中心の手法と比較して, 競争力があることを示した。
論文 参考訳(メタデータ) (2024-02-22T19:34:56Z) - PAS-SLAM: A Visual SLAM System for Planar Ambiguous Scenes [41.47703182059505]
平面不明瞭なシーンを対象とした平面的特徴に基づく視覚的SLAMシステムを提案する。
本稿では,平面パラメータ,意味情報,投影IoU,非パラメトリックテストを組み合わせた統合データアソシエーション戦略を提案する。
最後に、カメラポーズ最適化のための多重制約係数グラフのセットを設計する。
論文 参考訳(メタデータ) (2024-02-09T01:34:26Z) - Unified Task and Motion Planning using Object-centric Abstractions of
Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。
我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文 参考訳(メタデータ) (2023-12-29T14:00:20Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Position Paper: Online Modeling for Offline Planning [2.8326418377665346]
AI計画研究の重要な部分はアクションモデルの表現である。
この分野の成熟にもかかわらず、AI計画技術は研究コミュニティの外ではめったに使われない。
これは、モデリングプロセスが計画プロセスの前に行われ、完了したと仮定されているためである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-07T14:48:08Z) - Gradient-Based Mixed Planning with Discrete and Continuous Actions [34.885999774739055]
本稿では,連続パラメータと候補計画の動作を同時に最適化する二次的枠組みを提案する。
フレームワークはモジュールと組み合わせて、緩和に基づいて初期状態から目標へ移行する最適な計画候補を推定する。
論文 参考訳(メタデータ) (2021-10-19T14:21:19Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。