論文の概要: Subsecond 3D Mesh Generation for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2512.24428v1
- Date: Tue, 30 Dec 2025 19:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.57934
- Title: Subsecond 3D Mesh Generation for Robot Manipulation
- Title(参考訳): ロボットマニピュレーションのためのサブ秒間3Dメッシュ生成
- Authors: Qian Wang, Omar Abdellall, Tony Gao, Xiatao Sun, Daniel Rakita,
- Abstract要約: 本稿では,単一のRGB-D画像から高品質な3Dメッシュを1秒以内で生成するエンドツーエンドシステムを提案する。
我々のパイプラインは、オープン語彙オブジェクトセグメンテーション、拡散ベースのメッシュ生成の高速化、ロバストポイントクラウド登録を統合している。
実世界の操作タスクにおいて、その効果を実証し、メッシュをロボットの知覚と計画のための実用的でオンデマンドな表現として使用できることを示す。
- 参考スコア(独自算出の注目度): 4.928999092350224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D meshes are a fundamental representation widely used in computer science and engineering. In robotics, they are particularly valuable because they capture objects in a form that aligns directly with how robots interact with the physical world, enabling core capabilities such as predicting stable grasps, detecting collisions, and simulating dynamics. Although automatic 3D mesh generation methods have shown promising progress in recent years, potentially offering a path toward real-time robot perception, two critical challenges remain. First, generating high-fidelity meshes is prohibitively slow for real-time use, often requiring tens of seconds per object. Second, mesh generation by itself is insufficient. In robotics, a mesh must be contextually grounded, i.e., correctly segmented from the scene and registered with the proper scale and pose. Additionally, unless these contextual grounding steps remain efficient, they simply introduce new bottlenecks. In this work, we introduce an end-to-end system that addresses these challenges, producing a high-quality, contextually grounded 3D mesh from a single RGB-D image in under one second. Our pipeline integrates open-vocabulary object segmentation, accelerated diffusion-based mesh generation, and robust point cloud registration, each optimized for both speed and accuracy. We demonstrate its effectiveness in a real-world manipulation task, showing that it enables meshes to be used as a practical, on-demand representation for robotics perception and planning.
- Abstract(参考訳): 3Dメッシュはコンピュータ科学と工学で広く使われている基本的な表現である。
ロボット工学では、ロボットが物理的世界とどのように相互作用するかを直接的に整列する形で物体を捕獲し、安定した握力の予測、衝突の検出、ダイナミクスのシミュレーションなどのコア機能を実現するため、特に価値がある。
自動3Dメッシュ生成手法は近年,有望な進歩を見せており,リアルタイムロボット認識への道筋を提供する可能性があるが,2つの重要な課題が残っている。
第一に、高忠実度メッシュの生成はリアルタイム使用では極めて遅く、1オブジェクトあたり数十秒を要することが多い。
第二に、メッシュ生成自体が不十分である。
ロボット工学では、メッシュは文脈的に接地され、すなわちシーンから正しく区切られ、適切なスケールとポーズで登録されなければならない。
さらに、これらのコンテキスト基底ステップが効率的でない限り、彼らは単に新しいボトルネックを導入します。
本研究では,これらの課題に対処するエンドツーエンドシステムを導入し,単一のRGB-D画像から高品質な3Dメッシュを1秒以内で生成する。
我々のパイプラインは、オープン語彙オブジェクトセグメンテーション、拡散ベースのメッシュ生成の高速化、ロバストポイントクラウド登録を統合し、それぞれがスピードと精度の両方に最適化されている。
実世界の操作タスクにおいて、その効果を実証し、メッシュをロボットの知覚と計画のための実用的でオンデマンドな表現として使用できることを示す。
関連論文リスト
- Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction [70.06600045165905]
3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
論文 参考訳(メタデータ) (2026-02-10T18:58:15Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - Is Single-View Mesh Reconstruction Ready for Robotics? [78.14584238127338]
本研究では,ロボット操作のための物理シミュレータを用いたリアルタイム計画と動的予測のためのディジタル双対生成の実現の可能性について,単一ビューメッシュ再構成モデルの評価を行った。
我々の研究は、コンピュータビジョンの進歩とロボティクスの必要性の間に重要なギャップがあることを浮き彫りにし、この交差点における将来の研究を導く。
論文 参考訳(メタデータ) (2025-05-23T14:35:56Z) - SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。
SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。
我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文 参考訳(メタデータ) (2023-06-18T04:34:17Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。