論文の概要: RoboBrain 2.5: Depth in Sight, Time in Mind
- arxiv url: http://arxiv.org/abs/2601.14352v1
- Date: Tue, 20 Jan 2026 17:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.868527
- Title: RoboBrain 2.5: Depth in Sight, Time in Mind
- Title(参考訳): RoboBrain 2.5:視力と時間、心の奥行き
- Authors: Huajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang,
- Abstract要約: 本稿では,一般的な知覚,空間的推論,時間的モデリングを促進する次世代AI基盤モデルであるRoboBrain 2.5を紹介する。
具体的には、2Dピクセル相対グラウンドから深度対応座標予測にシフトすることで、精密3D推論をアンロックする。
Dense Temporal Value Estimationは、密集したステップ対応の進捗予測と実行状態の理解を提供する。
- 参考スコア(独自算出の注目度): 63.825215214332104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io
- Abstract(参考訳): 本稿では,次世代AI基盤モデルであるRoboBrain 2.5を紹介する。
RoboBrain 2.5には2つの大きな機能アップグレードが導入されている。
具体的には,2次元画素相対グラウンドから深度対応座標予測,絶対距離制約理解へとシフトすることで,精密な3次元空間推論を解き放ち,物理制約の下で順序付けられたキーポイントシーケンスとして完全な3次元操作トレースを生成する。
この空間的精度を補完するモデルでは、高密度でステップ対応の進行予測と実行状態理解を提供するDense Temporal Value Estimationを確立し、下流学習のための安定したフィードバック信号を生成する。
これらのアップグレードによって、複雑なきめ細かな操作のための、より物理的に基盤化され、実行対応のインテリジェンスへとフレームワークが拡張される。
コードとチェックポイントはプロジェクトのWebサイトで入手できる。
関連論文リスト
- Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression [12.590536117486257]
既存の視覚言語モデル(VLM)は、現実世界の空間知能を理解するのに苦労している。
GEODEは2つの特別なプラグアンドプレイモジュールでメインVLMを拡張している。
これらのモジュールの相乗効果により、1.5Bパラメータモデルは高レベルのセマンティックディスパッチとして機能します。
論文 参考訳(メタデータ) (2025-11-14T12:42:07Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。