論文の概要: On Grounded Planning for Embodied Tasks with Language Models
- arxiv url: http://arxiv.org/abs/2209.00465v3
- Date: Sat, 15 Jul 2023 10:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 00:28:03.006607
- Title: On Grounded Planning for Embodied Tasks with Language Models
- Title(参考訳): 言語モデルを用いた具体化タスクのグラウンドド・プランニングについて
- Authors: Bill Yuchen Lin, Chengsong Huang, Qian Liu, Wenda Gu, Sam Sommerer,
Xiang Ren
- Abstract要約: 言語モデル(LM)は、物理世界の常識的知識を持つ能力を示した。
LMが具体化されたタスクに対して、基礎的で実行可能な計画を生成する能力を持っているかどうかは、まだ不明である。
LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しい課題である。
- 参考スコア(独自算出の注目度): 30.217305215259277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have demonstrated their capability in possessing
commonsense knowledge of the physical world, a crucial aspect of performing
tasks in everyday life. However, it remains unclear **whether LMs have the
capacity to generate grounded, executable plans for embodied tasks.** This is a
challenging task as LMs lack the ability to perceive the environment through
vision and feedback from the physical environment. In this paper, we address
this important research question and present the first investigation into the
topic. Our novel problem formulation, named **G-PlanET**, inputs a high-level
goal and a data table about objects in a specific environment, and then outputs
a step-by-step actionable plan for a robotic agent to follow. To facilitate the
study, we establish an **evaluation protocol** and design a dedicated metric to
assess the quality of the plans. Our experiments demonstrate that the use of
tables for encoding the environment and an iterative decoding strategy can
significantly enhance the LMs' ability in grounded planning. Our analysis also
reveals interesting and non-trivial findings.
- Abstract(参考訳): 言語モデル(LM)は、日常の作業を行う上で重要な側面である物理世界の常識的知識を持つ能力を示した。
しかし、LMが具体化されたタスクのための基礎的で実行可能な計画を生成する能力を持っているかどうかはまだ不明である。
* LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しいタスクです。
本稿では,この重要な研究課題を取り上げ,そのトピックに関する最初の調査を行う。
我々の新しい問題定式化**G-PlanET**は、特定の環境におけるオブジェクトに関する高レベルな目標とデータテーブルを入力し、ロボットエージェントが従うためのステップバイステップ実行可能なプランを出力する。
研究を容易にするために,**評価プロトコル*を確立し,計画の質を評価するための専用指標を設計する。
実験により,環境をエンコードするためのテーブルと反復復号化戦略を用いることにより,地上計画におけるlmsの能力が著しく向上することを示す。
分析の結果、興味深く非自明な結果も明らかになった。
関連論文リスト
- Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。
EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。
トレーニングデータを必要とせずに推測できる最初のゼロショットプランニング手法であるソクラティックプランナーを紹介する。
論文 参考訳(メタデータ) (2024-04-21T08:10:20Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with
Procedural Warnings and Tips Dataset [2.0285519161103576]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models [84.6451394629312]
実世界のシナリオにおけるマルチモーダル言語モデル(MLLM)の具体的タスクプランナとしての可能性について定量的に検討する。
我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。
本研究では,複雑な実世界の状況下での高度タスク計画の学習を容易にするために,インストラクションチューニングデータセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Understanding the Capabilities of Large Language Models for Automated
Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。
この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-25T15:21:09Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。