論文の概要: Vision-Language Interpreter for Robot Task Planning
- arxiv url: http://arxiv.org/abs/2311.00967v2
- Date: Tue, 20 Feb 2024 03:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:30:05.692310
- Title: Vision-Language Interpreter for Robot Task Planning
- Title(参考訳): ロボット作業計画のための視覚言語解釈
- Authors: Keisuke Shirai, Cristian C. Beltran-Hernandez, Masashi Hamaya, Atsushi
Hashimoto, Shohei Tanaka, Kento Kawaharazuka, Kazutoshi Tanaka, Yoshitaka
Ushiku, Shinsuke Mori
- Abstract要約: 本稿では,2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。
目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。
言語指導とシーン観察からPDを生成することで、言語誘導型フレームワークでシンボリックプランナーを駆動できる。
- 参考スコア(独自算出の注目度): 20.834791639012728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are accelerating the development of
language-guided robot planners. Meanwhile, symbolic planners offer the
advantage of interpretability. This paper proposes a new task that bridges
these two trends, namely, multimodal planning problem specification. The aim is
to generate a problem description (PD), a machine-readable file used by the
planners to find a plan. By generating PDs from language instruction and scene
observation, we can drive symbolic planners in a language-guided framework. We
propose a Vision-Language Interpreter (ViLaIn), a new framework that generates
PDs using state-of-the-art LLM and vision-language models. ViLaIn can refine
generated PDs via error message feedback from the symbolic planner. Our aim is
to answer the question: How accurately can ViLaIn and the symbolic planner
generate valid robot plans? To evaluate ViLaIn, we introduce a novel dataset
called the problem description generation (ProDG) dataset. The framework is
evaluated with four new evaluation metrics. Experimental results show that
ViLaIn can generate syntactically correct problems with more than 99\% accuracy
and valid plans with more than 58\% accuracy. Our code and dataset are
available at https://github.com/omron-sinicx/ViLaIn.
- Abstract(参考訳): 大言語モデル(LLM)は、言語誘導型ロボットプランナーの開発を加速している。
一方、シンボリックプランナーは解釈可能性の利点を提供する。
本稿では,この2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。
目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。
言語指導とシーン観察からPDを生成することで、言語誘導フレームワークでシンボルプランナーを駆動できる。
我々は、最先端のLCMとビジョン言語モデルを用いてPDを生成する新しいフレームワークViLaInを提案する。
ViLaInはシンボリックプランナーからのエラーメッセージフィードバックによって生成されたPDを洗練することができる。
私たちの目標は、ViLaInとシンボリックプランナーが有効なロボット計画を生成することができるのか?
ViLaInを評価するために,問題記述生成(ProDG)データセットと呼ばれる新しいデータセットを導入する。
フレームワークは4つの新しい評価指標で評価される。
実験結果から, ViLaInは, 99 %以上の精度で, 58 %以上の精度で有効計画を生成することができることがわかった。
私たちのコードとデータセットはhttps://github.com/omron-sinicx/vilainで利用可能です。
関連論文リスト
- PARADISE: Evaluating Implicit Planning Skills of Language Models with
Procedural Warnings and Tips Dataset [2.0285519161103576]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [65.57612528270735]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - DoReMi: Grounding Language Model by Detecting and Recovering from
Plan-Execution Misalignment [11.572444827974852]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文 参考訳(メタデータ) (2023-07-01T12:51:02Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - DePlot: One-shot visual language reasoning by plot-to-table translation [50.28850068391312]
本稿では,視覚言語推論における最初のワンショットソリューションを提案する。
DePlotと名付けられたモダリティ変換モジュールは、プロットやチャートのイメージを線形化されたテーブルに変換する。
次に、DePlotの出力を直接使用して、事前訓練された大きな言語モデルをプロンプトすることができる。
論文 参考訳(メタデータ) (2022-12-20T18:20:50Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文 参考訳(メタデータ) (2022-09-20T17:29:56Z) - Visually-Grounded Planning without Vision: Language Models Infer
Detailed Plans from High-level Instructions [0.6091702876917281]
最近提案されたALFREDチャレンジタスクは、高レベルの自然言語ディレクティブから仮想ホーム環境において、複雑なマルチステップの日常的なタスクを完了するための仮想ロボットエージェントを目指している。
本稿では,自然言語ディレクティブを詳細な多段階のアクションシーケンスに変換するための翻訳問題をモデル化することに注力する。
この結果から,文脈型言語モデルでは,仮想エージェントに対して強力な視覚的セマンティック・プランニング・モジュールが提供される可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-29T18:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。