論文の概要: On Grounded Planning for Embodied Tasks with Language Models
- arxiv url: http://arxiv.org/abs/2209.00465v3
- Date: Sat, 15 Jul 2023 10:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 00:28:03.006607
- Title: On Grounded Planning for Embodied Tasks with Language Models
- Title(参考訳): 言語モデルを用いた具体化タスクのグラウンドド・プランニングについて
- Authors: Bill Yuchen Lin, Chengsong Huang, Qian Liu, Wenda Gu, Sam Sommerer,
Xiang Ren
- Abstract要約: 言語モデル(LM)は、物理世界の常識的知識を持つ能力を示した。
LMが具体化されたタスクに対して、基礎的で実行可能な計画を生成する能力を持っているかどうかは、まだ不明である。
LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しい課題である。
- 参考スコア(独自算出の注目度): 30.217305215259277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have demonstrated their capability in possessing
commonsense knowledge of the physical world, a crucial aspect of performing
tasks in everyday life. However, it remains unclear **whether LMs have the
capacity to generate grounded, executable plans for embodied tasks.** This is a
challenging task as LMs lack the ability to perceive the environment through
vision and feedback from the physical environment. In this paper, we address
this important research question and present the first investigation into the
topic. Our novel problem formulation, named **G-PlanET**, inputs a high-level
goal and a data table about objects in a specific environment, and then outputs
a step-by-step actionable plan for a robotic agent to follow. To facilitate the
study, we establish an **evaluation protocol** and design a dedicated metric to
assess the quality of the plans. Our experiments demonstrate that the use of
tables for encoding the environment and an iterative decoding strategy can
significantly enhance the LMs' ability in grounded planning. Our analysis also
reveals interesting and non-trivial findings.
- Abstract(参考訳): 言語モデル(LM)は、日常の作業を行う上で重要な側面である物理世界の常識的知識を持つ能力を示した。
しかし、LMが具体化されたタスクのための基礎的で実行可能な計画を生成する能力を持っているかどうかはまだ不明である。
* LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しいタスクです。
本稿では,この重要な研究課題を取り上げ,そのトピックに関する最初の調査を行う。
我々の新しい問題定式化**G-PlanET**は、特定の環境におけるオブジェクトに関する高レベルな目標とデータテーブルを入力し、ロボットエージェントが従うためのステップバイステップ実行可能なプランを出力する。
研究を容易にするために,**評価プロトコル*を確立し,計画の質を評価するための専用指標を設計する。
実験により,環境をエンコードするためのテーブルと反復復号化戦略を用いることにより,地上計画におけるlmsの能力が著しく向上することを示す。
分析の結果、興味深く非自明な結果も明らかになった。
関連論文リスト
- ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [89.68433168477227]
LLM(Large Language Model)ベースのエージェントは注目され、ますます人気が高まっている。
本稿では,LLMの学習指導による計画能力の向上について検討する。
この制限に対処するために,多様な環境の自動合成と段階的な計画課題について検討する。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。
我々はWKMを開発し,グローバルプランニングと動的状態知識を指導し,地域プランニングを支援する。
本手法は, 各種の強靭なベースラインと比較して, 優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-23T06:03:19Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。