論文の概要: Vision-Language Interpreter for Robot Task Planning
- arxiv url: http://arxiv.org/abs/2311.00967v2
- Date: Tue, 20 Feb 2024 03:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:30:05.692310
- Title: Vision-Language Interpreter for Robot Task Planning
- Title(参考訳): ロボット作業計画のための視覚言語解釈
- Authors: Keisuke Shirai, Cristian C. Beltran-Hernandez, Masashi Hamaya, Atsushi
Hashimoto, Shohei Tanaka, Kento Kawaharazuka, Kazutoshi Tanaka, Yoshitaka
Ushiku, Shinsuke Mori
- Abstract要約: 本稿では,2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。
目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。
言語指導とシーン観察からPDを生成することで、言語誘導型フレームワークでシンボリックプランナーを駆動できる。
- 参考スコア(独自算出の注目度): 20.834791639012728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are accelerating the development of
language-guided robot planners. Meanwhile, symbolic planners offer the
advantage of interpretability. This paper proposes a new task that bridges
these two trends, namely, multimodal planning problem specification. The aim is
to generate a problem description (PD), a machine-readable file used by the
planners to find a plan. By generating PDs from language instruction and scene
observation, we can drive symbolic planners in a language-guided framework. We
propose a Vision-Language Interpreter (ViLaIn), a new framework that generates
PDs using state-of-the-art LLM and vision-language models. ViLaIn can refine
generated PDs via error message feedback from the symbolic planner. Our aim is
to answer the question: How accurately can ViLaIn and the symbolic planner
generate valid robot plans? To evaluate ViLaIn, we introduce a novel dataset
called the problem description generation (ProDG) dataset. The framework is
evaluated with four new evaluation metrics. Experimental results show that
ViLaIn can generate syntactically correct problems with more than 99\% accuracy
and valid plans with more than 58\% accuracy. Our code and dataset are
available at https://github.com/omron-sinicx/ViLaIn.
- Abstract(参考訳): 大言語モデル(LLM)は、言語誘導型ロボットプランナーの開発を加速している。
一方、シンボリックプランナーは解釈可能性の利点を提供する。
本稿では,この2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。
目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。
言語指導とシーン観察からPDを生成することで、言語誘導フレームワークでシンボルプランナーを駆動できる。
我々は、最先端のLCMとビジョン言語モデルを用いてPDを生成する新しいフレームワークViLaInを提案する。
ViLaInはシンボリックプランナーからのエラーメッセージフィードバックによって生成されたPDを洗練することができる。
私たちの目標は、ViLaInとシンボリックプランナーが有効なロボット計画を生成することができるのか?
ViLaInを評価するために,問題記述生成(ProDG)データセットと呼ばれる新しいデータセットを導入する。
フレームワークは4つの新しい評価指標で評価される。
実験結果から, ViLaInは, 99 %以上の精度で, 58 %以上の精度で有効計画を生成することができることがわかった。
私たちのコードとデータセットはhttps://github.com/omron-sinicx/vilainで利用可能です。
関連論文リスト
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。
私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。
ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (2024-09-22T00:30:11Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Probabilistically Correct Language-based Multi-Robot Planning using Conformal Prediction [11.614036749291216]
本稿では,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsを提案する。
提案したプランナは,計画実行が成功すると仮定して,ユーザ指定のタスク成功率を達成可能であることを示す。
我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
論文 参考訳(メタデータ) (2024-02-23T15:02:44Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.322491116030825]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文 参考訳(メタデータ) (2023-07-01T12:51:02Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文 参考訳(メタデータ) (2022-09-20T17:29:56Z) - Visually-Grounded Planning without Vision: Language Models Infer
Detailed Plans from High-level Instructions [0.6091702876917281]
最近提案されたALFREDチャレンジタスクは、高レベルの自然言語ディレクティブから仮想ホーム環境において、複雑なマルチステップの日常的なタスクを完了するための仮想ロボットエージェントを目指している。
本稿では,自然言語ディレクティブを詳細な多段階のアクションシーケンスに変換するための翻訳問題をモデル化することに注力する。
この結果から,文脈型言語モデルでは,仮想エージェントに対して強力な視覚的セマンティック・プランニング・モジュールが提供される可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-29T18:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。