論文の概要: Multimodal Contextualized Plan Prediction for Embodied Task Completion
- arxiv url: http://arxiv.org/abs/2305.06485v1
- Date: Wed, 10 May 2023 22:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:26:24.538804
- Title: Multimodal Contextualized Plan Prediction for Embodied Task Completion
- Title(参考訳): タスク完了のためのマルチモーダルコンテクスト化計画予測
- Authors: Mert \.Inan, Aishwarya Padmakumar, Spandana Gella, Patrick Lange,
Dilek Hakkani-Tur
- Abstract要約: タスクプランニングは従来のロボットシステムにおいて重要なコンポーネントであり、ロボットがより複雑なタスクを実行するためのきめ細かいスキルを組み立てることができる。
シミュレーション実施エージェントにおけるタスク完了のための自然言語を実行可能なアクションに翻訳する最近の作業構築システムは,低レベルのアクションシーケンスを直接予測することに焦点を当てている。
我々は,そのような具体化されたタスク完了データセット - TEACh に対して,より高いレベルの計画表現を予測することに集中する。
- 参考スコア(独自算出の注目度): 9.659463406886301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task planning is an important component of traditional robotics systems
enabling robots to compose fine grained skills to perform more complex tasks.
Recent work building systems for translating natural language to executable
actions for task completion in simulated embodied agents is focused on directly
predicting low level action sequences that would be expected to be directly
executable by a physical robot. In this work, we instead focus on predicting a
higher level plan representation for one such embodied task completion dataset
- TEACh, under the assumption that techniques for high-level plan prediction
from natural language are expected to be more transferable to physical robot
systems. We demonstrate that better plans can be predicted using multimodal
context, and that plan prediction and plan execution modules are likely
dependent on each other and hence it may not be ideal to fully decouple them.
Further, we benchmark execution of oracle plans to quantify the scope for
improvement in plan prediction models.
- Abstract(参考訳): タスクプランニングは従来のロボットシステムにおいて重要なコンポーネントであり、ロボットがより複雑なタスクを実行するためのきめ細かいスキルを組み立てることができる。
近年, 自然言語をタスク完了のための実行可能なアクションに翻訳する作業ビルディングシステムは, ロボットが直接実行可能な低レベルのアクションシーケンスを直接予測することに焦点を当てている。
本研究は,自然言語による高レベル計画予測技術が,物理ロボットシステムにより伝達可能であることを前提として,そのような具体化されたタスク完了データセット - TEACh の高レベル計画表現の予測に焦点をあてる。
我々は,マルチモーダル・コンテキストを用いてより良い計画を予測することができ,計画予測と計画実行モジュールは相互に依存する可能性が高く,それらを完全に分離することが理想的ではないことを実証する。
さらに,計画予測モデルの改善範囲を定量化するために,オラクル計画の実行をベンチマークする。
関連論文リスト
- Safe Task Planning for Language-Instructed Multi-Robot Systems using
Conformal Prediction [13.053013407015628]
ミッション成功率の高い分散型マルチロボットプランナを新たに導入する。
これは、分布のない不確実性定量化ツールである共形予測(CP)をブラックボックスモデルで活用することで達成される。
理論的にも経験的にも,提案したプランナは,ヘルプリクエストの総数を最小限に抑えながら,ユーザ特定タスクの成功率を達成可能であることを示す。
論文 参考訳(メタデータ) (2024-02-23T15:02:44Z) - Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - Interactive Task Planning with Language Models [97.86399877812923]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、多くの場合、重いプロンプトエンジニアリングやドメイン固有の事前訓練されたモデルを必要とする。
本稿では,言語モデルを用いた対話型タスクプランニングを実現するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z) - Conformal Temporal Logic Planning using Large Language Models [29.57952582715011]
本稿では,複数のハイレベルなサブタスクを遂行する移動ロボットの新たな動作計画問題に対処する。
これらのサブタスクは、時間的および論理的な順序で達成されるべきである。
我々の目標は、NLベースの原子命題に基づいて定義されたタスクを満たすロボットプランを設計することである。
論文 参考訳(メタデータ) (2023-09-18T19:05:25Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - MATS: An Interpretable Trajectory Forecasting Representation for
Planning and Control [46.86174832000696]
人間の動きに関する推論は、現代の人間ロボットの対話システムの中核的な構成要素である。
自律システムにおける行動予測の主な用途の1つは、ロボットの動作計画と制御を知らせることである。
本稿では,下流の計画や制御に適するトラジェクトリ予測のための新しい出力表現を提案する。
論文 参考訳(メタデータ) (2020-09-16T07:32:37Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。