論文の概要: Multimodal Contextualized Plan Prediction for Embodied Task Completion
- arxiv url: http://arxiv.org/abs/2305.06485v1
- Date: Wed, 10 May 2023 22:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:26:24.538804
- Title: Multimodal Contextualized Plan Prediction for Embodied Task Completion
- Title(参考訳): タスク完了のためのマルチモーダルコンテクスト化計画予測
- Authors: Mert \.Inan, Aishwarya Padmakumar, Spandana Gella, Patrick Lange,
Dilek Hakkani-Tur
- Abstract要約: タスクプランニングは従来のロボットシステムにおいて重要なコンポーネントであり、ロボットがより複雑なタスクを実行するためのきめ細かいスキルを組み立てることができる。
シミュレーション実施エージェントにおけるタスク完了のための自然言語を実行可能なアクションに翻訳する最近の作業構築システムは,低レベルのアクションシーケンスを直接予測することに焦点を当てている。
我々は,そのような具体化されたタスク完了データセット - TEACh に対して,より高いレベルの計画表現を予測することに集中する。
- 参考スコア(独自算出の注目度): 9.659463406886301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task planning is an important component of traditional robotics systems
enabling robots to compose fine grained skills to perform more complex tasks.
Recent work building systems for translating natural language to executable
actions for task completion in simulated embodied agents is focused on directly
predicting low level action sequences that would be expected to be directly
executable by a physical robot. In this work, we instead focus on predicting a
higher level plan representation for one such embodied task completion dataset
- TEACh, under the assumption that techniques for high-level plan prediction
from natural language are expected to be more transferable to physical robot
systems. We demonstrate that better plans can be predicted using multimodal
context, and that plan prediction and plan execution modules are likely
dependent on each other and hence it may not be ideal to fully decouple them.
Further, we benchmark execution of oracle plans to quantify the scope for
improvement in plan prediction models.
- Abstract(参考訳): タスクプランニングは従来のロボットシステムにおいて重要なコンポーネントであり、ロボットがより複雑なタスクを実行するためのきめ細かいスキルを組み立てることができる。
近年, 自然言語をタスク完了のための実行可能なアクションに翻訳する作業ビルディングシステムは, ロボットが直接実行可能な低レベルのアクションシーケンスを直接予測することに焦点を当てている。
本研究は,自然言語による高レベル計画予測技術が,物理ロボットシステムにより伝達可能であることを前提として,そのような具体化されたタスク完了データセット - TEACh の高レベル計画表現の予測に焦点をあてる。
我々は,マルチモーダル・コンテキストを用いてより良い計画を予測することができ,計画予測と計画実行モジュールは相互に依存する可能性が高く,それらを完全に分離することが理想的ではないことを実証する。
さらに,計画予測モデルの改善範囲を定量化するために,オラクル計画の実行をベンチマークする。
関連論文リスト
- Joint Verification and Refinement of Language Models for Safety-Constrained Planning [21.95203475140736]
本研究では,実行可能計画を生成する手法を開発し,タスク関連安全仕様に対して正式に検証する。
自然言語で高レベルなタスク記述が与えられた場合、提案手法は言語モデルに問い合わせ、実行可能なロボットプログラムの形式で計画を生成する。
その後、生成されたプランをオートマトンベースの表現に変換し、仕様に対するオートマトンの公式な検証を可能にする。
論文 参考訳(メタデータ) (2024-10-18T21:16:30Z) - Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [23.62433580021779]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。
効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。
提案手法はVirtualHome-Envベンチマークで評価され,性能が向上し,推論精度が向上した。
論文 参考訳(メタデータ) (2024-10-02T11:42:49Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Probabilistically Correct Language-based Multi-Robot Planning using Conformal Prediction [11.614036749291216]
本稿では,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsを提案する。
提案したプランナは,計画実行が成功すると仮定して,ユーザ指定のタスク成功率を達成可能であることを示す。
我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
論文 参考訳(メタデータ) (2024-02-23T15:02:44Z) - Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。