Fugu-MT 論文翻訳(概要): Vision-Language Interpreter for Robot Task Planning

論文の概要: Vision-Language Interpreter for Robot Task Planning

arxiv url: http://arxiv.org/abs/2311.00967v2
Date: Tue, 20 Feb 2024 03:13:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 20:30:05.692310
Title: Vision-Language Interpreter for Robot Task Planning
Title（参考訳）: ロボット作業計画のための視覚言語解釈
Authors: Keisuke Shirai, Cristian C. Beltran-Hernandez, Masashi Hamaya, Atsushi Hashimoto, Shohei Tanaka, Kento Kawaharazuka, Kazutoshi Tanaka, Yoshitaka Ushiku, Shinsuke Mori
Abstract要約: 本稿では,2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。言語指導とシーン観察からPDを生成することで、言語誘導型フレームワークでシンボリックプランナーを駆動できる。
参考スコア（独自算出の注目度）: 20.834791639012728
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are accelerating the development of language-guided robot planners. Meanwhile, symbolic planners offer the advantage of interpretability. This paper proposes a new task that bridges these two trends, namely, multimodal planning problem specification. The aim is to generate a problem description (PD), a machine-readable file used by the planners to find a plan. By generating PDs from language instruction and scene observation, we can drive symbolic planners in a language-guided framework. We propose a Vision-Language Interpreter (ViLaIn), a new framework that generates PDs using state-of-the-art LLM and vision-language models. ViLaIn can refine generated PDs via error message feedback from the symbolic planner. Our aim is to answer the question: How accurately can ViLaIn and the symbolic planner generate valid robot plans? To evaluate ViLaIn, we introduce a novel dataset called the problem description generation (ProDG) dataset. The framework is evaluated with four new evaluation metrics. Experimental results show that ViLaIn can generate syntactically correct problems with more than 99\% accuracy and valid plans with more than 58\% accuracy. Our code and dataset are available at https://github.com/omron-sinicx/ViLaIn.
Abstract（参考訳）: 大言語モデル(LLM)は、言語誘導型ロボットプランナーの開発を加速している。一方、シンボリックプランナーは解釈可能性の利点を提供する。本稿では,この2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。言語指導とシーン観察からPDを生成することで、言語誘導フレームワークでシンボルプランナーを駆動できる。我々は、最先端のLCMとビジョン言語モデルを用いてPDを生成する新しいフレームワークViLaInを提案する。 ViLaInはシンボリックプランナーからのエラーメッセージフィードバックによって生成されたPDを洗練することができる。私たちの目標は、ViLaInとシンボリックプランナーが有効なロボット計画を生成することができるのか? ViLaInを評価するために,問題記述生成(ProDG)データセットと呼ばれる新しいデータセットを導入する。フレームワークは4つの新しい評価指標で評価される。実験結果から, ViLaInは, 99 %以上の精度で, 58 %以上の精度で有効計画を生成することができることがわかった。私たちのコードとデータセットはhttps://github.com/omron-sinicx/vilainで利用可能です。

関連論文リスト

Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation [62.711546725154314]
一般化可能なロボット操作のための大規模言語モデル(LLM)に基づく基盤的視覚言語計画モデルであるゴンドラについて紹介する。 G Gondola氏はマルチビューイメージとヒストリプランを使って、インターリーブされたテキストとターゲットオブジェクトとロケーションのセグメンテーションマスクを備えた次のアクションプランを作成する。 G Gondolaは、GemBenchデータセットの4つのレベルすべてにわたって、最先端のLCMベースのメソッドよりも優れています。
論文参考訳（メタデータ） (2025-06-12T20:04:31Z)
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models [8.715289208498053]
シンボル述語と視覚言語モデル(VLM)を用いたビジュアルプランニングのための最初のオープンソースベンチマークであるViPlanを紹介する。我々は,複数のサイズのオープンソースVLMファミリを,選択されたクローズドモデルとともにベンチマークし,VLMを基盤としたシンボルプランニングと,モデルを直接使用してアクションを提案する。正確な画像のグラウンド化が不可欠であるBlocksworldでは、直接VLM計画よりも優れているという象徴的な計画があるが、家庭用ロボティクスのタスクではその逆が当てはまる。
論文参考訳（メタデータ） (2025-05-19T14:38:15Z)
Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching [0.9217021281095907]
本稿では、視覚言語モデル(VLM)を利用して、初期状態の画像や目標状態の記述を自動的にPDDL問題に変換する新しいフレームワークであるImage2PDDLを紹介する。ブロックワールドやスライディングタイルパズルのような標準的な計画領域を含む,さまざまな領域におけるフレームワークの評価を,複数の難易度を持つデータセットを用いて行う。本稿では,自閉症スペクトラム障害児のロボット支援教育における可能性について論じる。
論文参考訳（メタデータ） (2025-01-29T14:04:54Z)
Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文参考訳（メタデータ） (2024-09-22T00:30:11Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Probabilistically Correct Language-based Multi-Robot Planning using Conformal Prediction [11.614036749291216]
本稿では,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsを提案する。提案したプランナは,計画実行が成功すると仮定して,ユーザ指定のタスク成功率を達成可能であることを示す。我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
論文参考訳（メタデータ） (2024-02-23T15:02:44Z)
TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文参考訳（メタデータ） (2024-02-02T18:39:51Z)
SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文参考訳（メタデータ） (2023-07-12T12:37:55Z)
DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.322491116030825]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文参考訳（メタデータ） (2023-07-01T12:51:02Z)
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文参考訳（メタデータ） (2023-05-18T17:59:42Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)
Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文参考訳（メタデータ） (2022-09-20T17:29:56Z)
Visually-Grounded Planning without Vision: Language Models Infer Detailed Plans from High-level Instructions [0.6091702876917281]
最近提案されたALFREDチャレンジタスクは、高レベルの自然言語ディレクティブから仮想ホーム環境において、複雑なマルチステップの日常的なタスクを完了するための仮想ロボットエージェントを目指している。本稿では,自然言語ディレクティブを詳細な多段階のアクションシーケンスに変換するための翻訳問題をモデル化することに注力する。この結果から,文脈型言語モデルでは,仮想エージェントに対して強力な視覚的セマンティック・プランニング・モジュールが提供される可能性が示唆された。
論文参考訳（メタデータ） (2020-09-29T18:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。