論文の概要: RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
- arxiv url: http://arxiv.org/abs/2512.13660v1
- Date: Mon, 15 Dec 2025 18:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.817331
- Title: RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
- Title(参考訳): RoboTracer:ロボットの視覚・言語モデルにおける推論による空間的トレースの習得
- Authors: Enshen Zhou, Cheng Chi, Yibo Li, Jingkun An, Jiayuan Zhang, Shanyu Rong, Yi Han, Yuheng Ji, Mengzhen Liu, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang,
- Abstract要約: 本稿では,3次元空間参照と計測の両方を初めて実現した3D対応VLMであるRoboTracerを提案する。
RoboTracerは、強化微調整により、多段階のメートル法推論を進める。
本稿では,空間的トレーシングを評価する上で困難なベンチマークであるTraceSpatial-Benchを提案する。
- 参考スコア(独自算出の注目度): 53.053660003572965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes.
- Abstract(参考訳): 空間的トレーシングは、ロボットの基本的な具体的相互作用能力として、複雑な空間参照と実世界の計量測定を組み合わせた多段階の計量地上推論を必要とするため、本質的に困難である。
しかし、既存の手法はこの構成課題に苦慮している。
そこで本研究では,空間エンコーダと回帰教師付きデコーダを用いて3次元空間参照と計測を両立させる3次元VLMのRoboTracerを提案する。
さらに、RoboTracerは、トリガー微調整(RFT)による多段階の計量基底推論を進歩させ、重要な中間知覚的手がかりを監督し、空間的トレースを正確に生成する。
SFTおよびRFTトレーニングをサポートするために,30MのQAペアからなる大規模データセットであるTraceSpatialを導入し,屋外/屋内/テーブルトップシーンにまたがり,複雑な推論プロセス(最大9ステップ)をサポートする。
さらに、空間的トレースを評価するためにギャップを埋める挑戦的なベンチマークであるTraceSpatial-Benchを提示する。
実験の結果,RoboTracerは空間的理解,測定,参照において,平均成功率79.1%を超え,TraceSpatial-Bench上でのSOTA性能は,Gemini-2.5-Proの36%を超える大差で達成した。
特にRoboTracerは、さまざまなコントロールポリシと統合して、さまざまなロボット(UR5、G1のヒューマノイド)間の長時間の動的タスクを、散らばった現実世界のシーンで実行することができる。
関連論文リスト
- GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking [11.436294975354556]
GRASPTrackはモノクロ深度推定とインスタンスセグメンテーションを標準TBDパイプラインに統合する新しいMOTフレームワークである。
これらの3D点雲は、精密で堅牢なVoxel-based 3D Intersection-over-Unionを可能にするために酸化される。
論文 参考訳(メタデータ) (2025-08-11T15:56:21Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。