論文の概要: On Grounded Planning for Embodied Tasks with Language Models
- arxiv url: http://arxiv.org/abs/2209.00465v1
- Date: Mon, 29 Aug 2022 16:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:15:50.258241
- Title: On Grounded Planning for Embodied Tasks with Language Models
- Title(参考訳): 言語モデルを用いた具体化タスクのグラウンドド・プランニングについて
- Authors: Bill Yuchen Lin, Chengsong Huang, Qian Liu, Wenda Gu, Sam Sommerer,
Xiang Ren
- Abstract要約: 言語モデル(LM)は物理世界の常識を持つ。
LMが具体化されたタスクに対して、基礎的で実行可能な計画を生成する能力を持っているかどうかは、まだ未解決の問題である。
本稿では,G-Planetという新しい問題定式化手法を提案する。
- 参考スコア(独自算出の注目度): 30.217305215259277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are shown to have commonsense knowledge of the physical
world, which is fundamental for completing tasks in everyday situations.
However, it is still an open question whether LMs have the ability to generate
grounded, executable plans for embodied tasks. It is very challenging because
LMs do not have an "eye" or "hand" to perceive the realistic environment. In
this work, we show the first study on this important research question. We
first present a novel problem formulation named G-PlanET, which takes as input
a high-level goal and a table of objects in a specific environment. The
expected output is a plan consisting of step-by-step instructions for agents to
execute. To enable the study of this problem, we establish an evaluation
protocol and devise a dedicated metric for assessing the quality of plans. In
our extensive experiments, we show that adding flattened tables for encoding
environments and using an iterative decoding strategy can both improve the LMs'
ability for grounded planning. Our analysis of the results also leads to
interesting non-trivial findings.
- Abstract(参考訳): 言語モデル (LM) は、日常の状況においてタスクを完了させる基礎となる物理世界の常識的知識を持つ。
しかし、LMが具体化タスクのための基礎的で実行可能な計画を生成する能力を持っているかどうかはまだ未解決の問題である。
LMは現実的な環境を知覚する"目"や"手"を持っていないため、非常に難しい。
本稿では,この重要な研究課題に関する最初の研究を紹介する。
まず,G-Planet という,高レベルな目標と特定の環境におけるオブジェクトのテーブルを入力とする新しい問題定式化について述べる。
期待される出力は、エージェントが実行するステップバイステップの指示からなるプランである。
この問題を解決するために,評価プロトコルを確立し,計画の質を評価するための専用の指標を考案する。
広範な実験により,エンコーディング環境にフラット化テーブルを追加し,反復復号戦略を用いることで,lmsのグラウンドド・プランニング能力が向上することを示した。
結果の分析も興味深い非自明な発見につながります。
関連論文リスト
- PARADISE: Evaluating Implicit Planning Skills of Language Models with
Procedural Warnings and Tips Dataset [2.0285519161103576]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Understanding the Capabilities of Large Language Models for Automated
Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。
この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-25T15:21:09Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。