Fugu-MT 論文翻訳(概要): On Grounded Planning for Embodied Tasks with Language Models

論文の概要: On Grounded Planning for Embodied Tasks with Language Models

arxiv url: http://arxiv.org/abs/2209.00465v3
Date: Sat, 15 Jul 2023 10:04:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-19 00:28:03.006607
Title: On Grounded Planning for Embodied Tasks with Language Models
Title（参考訳）: 言語モデルを用いた具体化タスクのグラウンドド・プランニングについて
Authors: Bill Yuchen Lin, Chengsong Huang, Qian Liu, Wenda Gu, Sam Sommerer, Xiang Ren
Abstract要約: 言語モデル(LM)は、物理世界の常識的知識を持つ能力を示した。 LMが具体化されたタスクに対して、基礎的で実行可能な計画を生成する能力を持っているかどうかは、まだ不明である。 LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しい課題である。
参考スコア（独自算出の注目度）: 30.217305215259277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models (LMs) have demonstrated their capability in possessing commonsense knowledge of the physical world, a crucial aspect of performing tasks in everyday life. However, it remains unclear **whether LMs have the capacity to generate grounded, executable plans for embodied tasks.** This is a challenging task as LMs lack the ability to perceive the environment through vision and feedback from the physical environment. In this paper, we address this important research question and present the first investigation into the topic. Our novel problem formulation, named **G-PlanET**, inputs a high-level goal and a data table about objects in a specific environment, and then outputs a step-by-step actionable plan for a robotic agent to follow. To facilitate the study, we establish an **evaluation protocol** and design a dedicated metric to assess the quality of the plans. Our experiments demonstrate that the use of tables for encoding the environment and an iterative decoding strategy can significantly enhance the LMs' ability in grounded planning. Our analysis also reveals interesting and non-trivial findings.
Abstract（参考訳）: 言語モデル(LM)は、日常の作業を行う上で重要な側面である物理世界の常識的知識を持つ能力を示した。しかし、LMが具体化されたタスクのための基礎的で実行可能な計画を生成する能力を持っているかどうかはまだ不明である。 * LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しいタスクです。本稿では,この重要な研究課題を取り上げ,そのトピックに関する最初の調査を行う。我々の新しい問題定式化**G-PlanET**は、特定の環境におけるオブジェクトに関する高レベルな目標とデータテーブルを入力し、ロボットエージェントが従うためのステップバイステップ実行可能なプランを出力する。研究を容易にするために,**評価プロトコル*を確立し,計画の質を評価するための専用指標を設計する。実験により,環境をエンコードするためのテーブルと反復復号化戦略を用いることにより,地上計画におけるlmsの能力が著しく向上することを示す。分析の結果、興味深く非自明な結果も明らかになった。

関連論文リスト

Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators [34.28879194786174]
オープンワールド環境における汎用的なロボット移動操作は、長い地平線、複雑な目標、部分的な観測可能性といった大きな課題を生んでいる。これらの課題に対処するための有望なアプローチは、タスクプランナーがこれらのスキルをシーケンスして、構造化言語で指定された目標を達成する、パラメータ化されたスキルのライブラリを計画することである。本稿では、視覚言語モデルを利用して不確実性を推定し、シンボリックグラウンド化を促進する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-04T07:48:53Z)
ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文参考訳（メタデータ） (2024-10-02T19:56:38Z)
Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。最適な計画生成のための幅優先探索アルゴリズムを採用している。実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-09-30T17:57:28Z)
AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [89.68433168477227]
LLM(Large Language Model)ベースのエージェントは注目され、ますます人気が高まっている。本稿では,LLMの学習指導による計画能力の向上について検討する。この制限に対処するために,多様な環境の自動合成と段階的な計画課題について検討する。
論文参考訳（メタデータ） (2024-08-01T17:59:46Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。我々はWKMを開発し,グローバルプランニングと動的状態知識を指導し,地域プランニングを支援する。本手法は, 各種の強靭なベースラインと比較して, 優れた性能が得られる。
論文参考訳（メタデータ） (2024-05-23T06:03:19Z)
PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文参考訳（メタデータ） (2024-03-05T18:01:59Z)
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。 EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文参考訳（メタデータ） (2023-12-11T03:35:58Z)
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。 ViLaは、知覚データを推論と計画プロセスに直接統合する。実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文参考訳（メタデータ） (2023-11-29T17:46:25Z)
Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文参考訳（メタデータ） (2023-07-04T17:58:25Z)
Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文参考訳（メタデータ） (2023-05-12T18:14:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。