論文の概要: Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
- arxiv url: http://arxiv.org/abs/2505.15517v1
- Date: Wed, 21 May 2025 13:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.671425
- Title: Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
- Title(参考訳): Robo2VLM:大規模ロボットマニピュレーションデータセットからの視覚的質問応答
- Authors: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg,
- Abstract要約: VLM(Vision-Language Models)は,インターネット規模の画像テキストコーパスを通じて,実世界の知識と一般的な推論能力を取得する。
本稿では,VLMのためのVQA(Visual Question Answering)データセット生成フレームワークであるRobo2VLMを紹介する。
実物176kのロボット軌道から463の異なるシーンと3,396のロボット操作タスクをカバーし、684,710の質問を回答した。
- 参考スコア(独自算出の注目度): 16.46722805252982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) acquire real-world knowledge and general reasoning ability through Internet-scale image-text corpora. They can augment robotic systems with scene understanding and task planning, and assist visuomotor policies that are trained on robot trajectory data. We explore the reverse paradigm - using rich, real, multi-modal robot trajectory data to enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual Question Answering (VQA) dataset generation framework for VLMs. Given a human tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual and non-descriptive sensory modalities, such as end-effector pose, gripper aperture, and force sensing. Based on these modalities, it segments the robot trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses scene and interaction understanding to identify 3D properties of the robot, task goal, and the target object. The properties are used to generate representative VQA queries - images with textural multiple-choice questions - based on spatial, goal-conditioned, and interaction reasoning question templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710 questions covering 463 distinct scenes and 3,396 robotic manipulation tasks from 176k real robot trajectories. Results suggest that Robo2VLM-1 can benchmark and improve VLM capabilities in spatial and interaction reasoning.
- Abstract(参考訳): VLM(Vision-Language Models)は,インターネット規模の画像テキストコーパスを通じて,実世界の知識と一般的な推論能力を取得する。
ロボットは、シーン理解とタスクプランニングによってロボットシステムを強化し、ロボット軌道データに基づいてトレーニングされたバイスモータポリシーを支援することができる。
我々は,VLMの強化と評価のために,リッチでリアルなマルチモーダルロボット軌道データを用いて,逆パラダイムを探求する。
本稿では,VLMのためのVQA(Visual Question Answering)データセット生成フレームワークであるRobo2VLMを提案する。
人間の遠隔操作ロボット軌道が与えられた場合、Robo2VLMは、エンドエフェクターポーズ、グリップパーアパーチャ、力覚といった非視覚的および非記述的な感覚モーダルから、接地トルースを導出する。
これらのモダリティに基づいて、ロボットの軌道を一連の操作フェーズに分割する。
各フェーズにおいて、Robo2VLMはシーンとインタラクションの理解を使用して、ロボットの3D特性、タスクゴール、ターゲットオブジェクトを識別する。
これらの特性は、空間的、目標条件付き、相互作用推論質問テンプレートに基づいて、テキストによる多重選択質問の画像である代表VQAクエリを生成するために使用される。
実物176kのロボット軌道から463の異なるシーンと3,396のロボット操作タスクをカバーし、684,710の質問を回答した。
その結果,Robo2VLM-1は空間的および相互作用的推論においてVLM能力をベンチマークし,向上させることができることが示唆された。
関連論文リスト
- Robotic Visual Instruction [10.110333805611974]
ロボット視覚指導(RoVI)を導入し,ロボット作業の指導を行う。
RoVIは時空間情報を人間の解釈可能な視覚命令にエンコードする。
ロボットがRoVIをよりよく理解できるように、視覚インストラクション・エンボダイド(VIEW)を提案する。
論文 参考訳(メタデータ) (2025-05-01T17:55:05Z) - VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model [4.557035895252272]
視覚言語モデル(VLM)は、常識推論と一般化可能性において、ロボット工学に採用されている。
本研究では,VLMを用いて人間のデモ映像を解釈し,ロボットによるタスク計画を生成する。
これは、VLMが人間によるデモンストレーションを「見る」ことができ、それに対応する計画をロボットに「見る」ように説明できるためである。
論文 参考訳(メタデータ) (2024-10-11T13:17:52Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。