論文の概要: Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2602.10101v1
- Date: Tue, 10 Feb 2026 18:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.338719
- Title: Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction
- Title(参考訳): Robo3R:正確なフィードフォワード3D再構成によるロボットマニピュレーションの強化
- Authors: Sizhe Yang, Linning Xu, Hao Li, Juncheng Mu, Jia Zeng, Dahua Lin, Jiangmiao Pang,
- Abstract要約: 3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
- 参考スコア(独自算出の注目度): 70.06600045165905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D spatial perception is fundamental to generalizable robotic manipulation, yet obtaining reliable, high-quality 3D geometry remains challenging. Depth sensors suffer from noise and material sensitivity, while existing reconstruction models lack the precision and metric consistency required for physical interaction. We introduce Robo3R, a feed-forward, manipulation-ready 3D reconstruction model that predicts accurate, metric-scale scene geometry directly from RGB images and robot states in real time. Robo3R jointly infers scale-invariant local geometry and relative camera poses, which are unified into the scene representation in the canonical robot frame via a learned global similarity transformation. To meet the precision demands of manipulation, Robo3R employs a masked point head for sharp, fine-grained point clouds, and a keypoint-based Perspective-n-Point (PnP) formulation to refine camera extrinsics and global alignment. Trained on Robo3R-4M, a curated large-scale synthetic dataset with four million high-fidelity annotated frames, Robo3R consistently outperforms state-of-the-art reconstruction methods and depth sensors. Across downstream tasks including imitation learning, sim-to-real transfer, grasp synthesis, and collision-free motion planning, we observe consistent gains in performance, suggesting the promise of this alternative 3D sensing module for robotic manipulation.
- Abstract(参考訳): 3D空間認識は、一般化可能なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
奥行きセンサーはノイズや材料感度に悩まされ、既存の再構成モデルでは物理的相互作用に必要な精度と距離の整合性が欠如している。
我々は,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測するフィードフォワード操作可能な3D再構成モデルであるRobo3Rを紹介した。
Robo3Rはスケール不変な局所幾何学と相対カメラのポーズを共同で推論し、学習されたグローバルな類似性変換を通じて標準ロボットフレームのシーン表現に統合する。
精密な操作の要求を満たすため、Robo3Rはシャープできめ細かな点雲にマスク付きポイントヘッドを使用し、キーポイントベースのパースペクティブ-n-Point (PnP) を定式化してカメラの外部とグローバルアライメントを洗練させる。
Robo3R-4Mは400万の高忠実度アノテートフレームを備えた、大規模合成データセットである。
模擬学習,シミュレート・トゥ・リアル・トランスファー,グリップ・シンセサイザー,衝突のない動作計画といった下流のタスクにおいて,ロボット操作のための代替3Dセンシングモジュールが期待できることを示唆する。
関連論文リスト
- MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Fiducial Exoskeletons: Image-Centric Robot State Estimation [21.491677821308688]
画像に基づく3次元ロボット状態推定の再構成であるFiducial Exoskeletonsを紹介する。
まず,1枚のRGB画像から各リンクの6次元ポーズ推定として,ロボットの状態推定を行った。
第2に、学習することなく、リンクごとの6Dポーズ推定を堅牢でシンプルなものにします。
論文 参考訳(メタデータ) (2026-01-12T22:04:25Z) - RePose-NeRF: Robust Radiance Fields for Mesh Reconstruction under Noisy Camera Poses [0.5328562411561214]
マルチビュー画像から直接高品質で編集可能な3Dメッシュを再構築する堅牢なフレームワークを提案する。
我々のアプローチは、細かな幾何学的ディテールと外観をキャプチャする暗黙のシーン表現を学習しながら、カメラのポーズを共同で洗練する。
論文 参考訳(メタデータ) (2025-11-11T18:25:58Z) - HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images [27.025336665386735]
モノクロモーションビデオ/画像から手動3D変換を推定するための,ロバストでキーポイントのない手法を提案する。
さらにこれを多視点再構成パイプラインに統合し,手動物体の形状を正確に復元する。
提案手法は,HOSt3Rと命名され,非拘束であり,事前スキャンされたオブジェクトテンプレートやカメラ内在性に依存しず,最先端の性能に達する。
論文 参考訳(メタデータ) (2025-08-22T15:30:40Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Amodal 3D Reconstruction for Robotic Manipulation via Stability and
Connectivity [3.359622001455893]
学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。
既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。
本稿では,オブジェクト形状よりも先に安定性を導入するアモーダル3D再構成システムARMと,接続前の接続,マルチチャネル入力表現を提案する。
論文 参考訳(メタデータ) (2020-09-28T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。