Fugu-MT 論文翻訳(概要): RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

論文の概要: RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

arxiv url: http://arxiv.org/abs/2506.04308v3
Date: Sat, 25 Oct 2025 03:07:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 19:54:32.364625
Title: RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
Title（参考訳）: RoboRefer:ロボットの視覚言語モデルにおける推論による空間参照
Authors: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang,
Abstract要約: 空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。 RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
参考スコア（独自算出の注目度）: 67.11221574129937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatial referring is a fundamental capability of embodied robots to interact with the 3D physical world. However, even with the powerful pretrained vision language models (VLMs), recent approaches are still not qualified to accurately understand the complex 3D scenes and dynamically reason about the instruction-indicated locations for interaction. To this end, we propose RoboRefer, a 3D-aware VLM that can first achieve precise spatial understanding by integrating a disentangled but dedicated depth encoder via supervised fine-tuning (SFT). Moreover, RoboRefer advances generalized multi-step spatial reasoning via reinforcement fine-tuning (RFT), with metric-sensitive process reward functions tailored for spatial referring tasks. To support SFT and RFT training, we introduce RefSpatial, a large-scale dataset of 20M QA pairs (2x prior), covering 31 spatial relations (vs. 15 prior) and supporting complex reasoning processes (up to 5 steps). In addition, we introduce RefSpatial-Bench, a challenging benchmark filling the gap in evaluating spatial referring with multi-step reasoning. Experiments show that SFT-trained RoboRefer achieves state-of-the-art spatial understanding, with an average success rate of 89.6%. RFT-trained RoboRefer further outperforms all other baselines by a large margin, even surpassing Gemini-2.5-Pro by 17.4% in average accuracy on RefSpatial-Bench. Notably, RoboRefer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (e,g., UR5, G1 humanoid) in cluttered real-world scenes. Please see the project page at https://zhoues.github.io/RoboRefer.
Abstract（参考訳）: 空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。しかしながら、強力な事前訓練された視覚言語モデル (VLM) でさえ、最近のアプローチでは複雑な3Dシーンを正確に理解し、対話のための命令を指示する場所について動的に推論する資格がない。この目的のために,3D対応のVLMであるRoboReferを提案する。これはまず,教師付き微調整(SFT)により,絡み合うが専用深度エンコーダを統合することで,正確な空間理解を実現することができる。さらに、RoboReferは、空間参照タスクに適した距離依存性プロセス報酬関数を備えた強化微調整(RFT)による一般化された多段階空間推論を推進している。 SFTおよびRFTトレーニングをサポートするために,20MのQAペア(2倍前)の大規模データセットであるRefSpatialを導入し,31の空間関係(vs.15前)をカバーし,複雑な推論プロセス(最大5ステップ前)をサポートする。さらに,マルチステップ推論による空間参照評価におけるギャップを埋める,困難なベンチマークであるRefSpatial-Benchを紹介する。実験によると、SFTで訓練されたRoboReferは最先端の空間理解を実現し、平均成功率は89.6%である。 RFTで訓練されたRoboReferは、他の全てのベースラインよりも大きなマージンで、さらにGemini-2.5-Proを17.4%上回り、RefSpatial-Benchで平均精度を上げた。特にRoboReferは、さまざまなコントロールポリシと統合して、さまざまなロボット(UR5、G1ヒューマノイドなど)間の長時間の動的タスクを、散らばった現実世界のシーンで実行することができる。プロジェクトページはhttps://zhoues.github.io/RoboRefer.comでご覧ください。

関連論文リスト

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning [18.697914587954163]
pySpatialは、MLLMと空間ツールとのインタフェースを備えたビジュアルプログラミングフレームワークである。 pySpatialは生の2D入力を探索可能な3Dシーンに変換し、MLLMが構造化された空間表現に対して明示的に推論することを可能にする。
論文参考訳（メタデータ） (2026-03-01T03:55:49Z)
Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文参考訳（メタデータ） (2026-01-13T23:36:30Z)
RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics [53.053660003572965]
本稿では,3次元空間参照と計測の両方を初めて実現した3D対応VLMであるRoboTracerを提案する。 RoboTracerは、強化微調整により、多段階のメートル法推論を進める。本稿では,空間的トレーシングを評価する上で困難なベンチマークであるTraceSpatial-Benchを提案する。
論文参考訳（メタデータ） (2025-12-15T18:52:43Z)
SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。 RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文参考訳（メタデータ） (2025-11-12T18:59:08Z)
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。 InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文参考訳（メタデータ） (2025-10-15T17:30:05Z)
SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。 RoboTwinベンチマークの平均成功率は98.7%に達する。
論文参考訳（メタデータ） (2025-06-24T03:03:26Z)
MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文参考訳（メタデータ） (2025-05-22T12:37:47Z)
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets [16.46722805252982]
VLM(Vision-Language Models)は,インターネット規模の画像テキストコーパスを通じて,実世界の知識と一般的な推論能力を取得する。本稿では,VLMのためのVQA(Visual Question Answering)データセット生成フレームワークであるRobo2VLMを紹介する。実物176kのロボット軌道から463の異なるシーンと3,396のロボット操作タスクをカバーし、684,710の質問を回答した。
論文参考訳（メタデータ） (2025-05-21T13:42:52Z)
econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題であるこの制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文参考訳（メタデータ） (2025-04-02T15:12:17Z)
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
ロボット工学における空間理解のための大規模データセットであるRoboSpatialを紹介する。実際の屋内とテーブルトップのシーンで構成され、3Dスキャンとエゴセントリックなイメージとして撮影され、ロボット工学に関連する豊富な空間情報が注釈付けされている。実験により, 空間空き時間予測, 空間的関係予測, ロボット操作など, 下流作業におけるRoboSpatialで訓練したモデルは, ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-25T16:21:34Z)
HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models [20.412403432289583]
本稿では、画像とテキストの埋め込みを融合させるためのFiLM(Featurewise Linear Modulation)の階層的応用を特徴とするHiFi-CSを紹介する。ビジュアルグラウンドティングは2D/3D空間のオブジェクトと自然言語入力を関連付け、クローズドとオープンボキャブラリの2つのシナリオで研究されている。 7-DOFロボットアームを用いた実世界RGS実験によるアプローチの有効性を検証し、15台のテーブルトップシーンで90.33%の視覚的接地精度を達成した。
論文参考訳（メタデータ） (2024-09-16T15:50:39Z)
RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文参考訳（メタデータ） (2024-08-28T03:17:40Z)
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。 GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文参考訳（メタデータ） (2024-05-27T18:57:18Z)
A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。 SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文参考訳（メタデータ） (2023-06-18T04:34:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。