論文の概要: RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
- arxiv url: http://arxiv.org/abs/2506.04308v1
- Date: Wed, 04 Jun 2025 17:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.347563
- Title: RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
- Title(参考訳): RoboRefer:ロボットの視覚言語モデルにおける推論による空間参照
- Authors: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang,
- Abstract要約: 空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RFTで訓練されたRoboReferは最先端の空間理解を実現し、平均成功率は89.6%である。
- 参考スコア(独自算出の注目度): 54.441878000440965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial referring is a fundamental capability of embodied robots to interact with the 3D physical world. However, even with the powerful pretrained vision language models (VLMs), recent approaches are still not qualified to accurately understand the complex 3D scenes and dynamically reason about the instruction-indicated locations for interaction. To this end, we propose RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding by integrating a disentangled but dedicated depth encoder via supervised fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process reward functions tailored for spatial referring tasks. To support SFT and RFT training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x prior), covering 31 spatial relations (vs. 15 prior) and supporting complex reasoning processes (up to 5 steps). In addition, we introduce RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial referring with multi-step reasoning. Experiments show that SFT-trained RoboRefer achieves state-of-the-art spatial understanding, with an average success rate of 89.6%. RFT-trained RoboRefer further outperforms all other baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (e,g., UR5, G1 humanoid) in cluttered real-world scenes.
- Abstract(参考訳): 空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
しかしながら、強力な事前訓練された視覚言語モデル (VLM) でさえ、最近のアプローチでは複雑な3Dシーンを正確に理解し、対話のための命令を指示する場所について動的に推論する資格がない。
この目的のために,3D対応のVLMであるRoboReferを提案する。これはまず,教師付き微調整(SFT)により,絡み合うが専用深度エンコーダを統合することで,正確な空間理解を実現することができる。
さらに、RoboReferは、空間参照タスクに適した距離依存性プロセス報酬関数を備えた強化微調整(RFT)による一般化された多段階空間推論を推進している。
SFTおよびRFTトレーニングをサポートするために,20MのQAペア(2倍前)の大規模データセットであるRefSpatialを導入し,31の空間関係(vs.15前)をカバーし,複雑な推論プロセス(最大5ステップ前)をサポートする。
さらに,マルチステップ推論による空間参照評価におけるギャップを埋める,困難なベンチマークであるRefSpatial-Benchを紹介する。
実験によると、SFTで訓練されたRoboReferは最先端の空間理解を実現し、平均成功率は89.6%である。
RFTで訓練されたRoboReferは、他の全てのベースラインよりも大きなマージンで、さらにGemini-2.5-Proを17.4%上回り、RefSpatial-Benchで平均精度を上げた。
特にRoboReferは、さまざまなコントロールポリシと統合して、さまざまなロボット(UR5、G1ヒューマノイドなど)間の長時間の動的タスクを、散らばった現実世界のシーンで実行することができる。
関連論文リスト
- MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets [16.46722805252982]
VLM(Vision-Language Models)は,インターネット規模の画像テキストコーパスを通じて,実世界の知識と一般的な推論能力を取得する。
本稿では,VLMのためのVQA(Visual Question Answering)データセット生成フレームワークであるRobo2VLMを紹介する。
実物176kのロボット軌道から463の異なるシーンと3,396のロボット操作タスクをカバーし、684,710の質問を回答した。
論文 参考訳(メタデータ) (2025-05-21T13:42:52Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
ロボット工学における空間理解のための大規模データセットであるRoboSpatialを紹介する。
実際の屋内とテーブルトップのシーンで構成され、3Dスキャンとエゴセントリックなイメージとして撮影され、ロボット工学に関連する豊富な空間情報が注釈付けされている。
実験により, 空間空き時間予測, 空間的関係予測, ロボット操作など, 下流作業におけるRoboSpatialで訓練したモデルは, ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。
SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。
我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文 参考訳(メタデータ) (2023-06-18T04:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。