論文の概要: OCH3R: Object-Centric Holistic 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2605.13018v1
- Date: Wed, 13 May 2026 05:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.82405
- Title: OCH3R: Object-Centric Holistic 3D Reconstruction
- Title(参考訳): OCH3R:オブジェクト中心のホロスティックな3D再構成
- Authors: Yi Du, Yang You, Xiang Wan, Leonidas Guibas,
- Abstract要約: 我々は1枚のRGB画像からオブジェクト中心のホロスティック3次元再構成のための統合フレームワークであるOCH3Rを紹介する。
OCH3Rは1つのフォワードパスを実行し、すべてのオブジェクトインスタンスを同時に6Dポーズと詳細な3D再構成で予測する。
標準的な屋内ベンチマークでは、OCH3Rは単分子深度推定、開語彙セマンティックセマンティックセグメンテーション、RGBのみのカテゴリレベルの6Dポーズ推定にまたがって最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 36.45885767128656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-centric scene understanding is a fundamental challenge in computer vision. Existing approaches often rely on multi-stage pipelines that first apply pre-trained segmentors to extract individual objects, followed by per-object 3D reconstruction. Such methods are computationally expensive, fragile to segmentation errors, and scale poorly with scene complexity. We introduce OCH3R, a unified framework for Object-Centric Holistic 3D Reconstruction from a single RGB image. OCH3R performs one forward pass to simultaneously predict all object instances with their 6D poses and detailed 3D reconstructions. The key idea is a transformer architecture that predicts per-pixel attributes, including CLIP-based category embeddings, metric depth, normalized object coordinates (NOCS), and a fixed number of 3D Gaussians representing each object. To supervise these Gaussian reconstructions, we transform them into canonical space using the predicted 6D poses and align them with pre-rendered canonical ground truth, avoiding costly per-image Gaussian label generation. On standard indoor benchmarks, OCH3R achieves state-of-the-art performance across monocular depth estimation, open-vocabulary semantic segmentation, and RGB-only category-level 6D pose estimation, while producing high-fidelity, editable per-object reconstructions. Crucially, inference is fully feed-forward and scales independently of the number of objects, offering orders-of-magnitude speedups over conventional multi-stage pipelines in cluttered scenes.
- Abstract(参考訳): オブジェクト中心のシーン理解はコンピュータビジョンにおける根本的な課題である。
既存のアプローチでは、まず訓練済みセグメンタを使用して個々のオブジェクトを抽出し、続いてオブジェクトごとの3D再構成を行うマルチステージパイプラインに依存していることが多い。
このような手法は計算コストが高く、セグメンテーションエラーに脆弱で、シーンの複雑さに乏しい。
我々は1枚のRGB画像からオブジェクト中心のホロスティック3次元再構成のための統合フレームワークであるOCH3Rを紹介する。
OCH3Rは1つのフォワードパスを実行し、すべてのオブジェクトインスタンスを同時に6Dポーズと詳細な3D再構成で予測する。
キーとなるアイデアは、CLIPベースのカテゴリ埋め込み、メートル法深度、正規化されたオブジェクト座標(NOCS)、各オブジェクトを表す固定数の3Dガウスなど、ピクセル単位の属性を予測するトランスフォーマーアーキテクチャである。
これらのガウスの復元を監督するために、予測された6次元のポーズを用いて標準空間に変換し、それらをプレレンダリングされた正準基底真理と整合させ、コストのかかるガウスのラベル生成を避ける。
標準的な屋内ベンチマークでは、OCH3Rはモノクロ深度推定、オープンボキャブラリセマンティックセマンティックセグメンテーション、RGBのみのカテゴリレベルの6Dポーズ推定にまたがって最先端の性能を達成し、高忠実で編集可能なオブジェクト単位の再構成を生成する。
重要なことは、推論は完全にフィードフォワードで、オブジェクトの数とは独立してスケールし、散らかったシーンにおける従来のマルチステージパイプラインよりも高速な命令を提供する。
関連論文リスト
- FurnSet: Exploiting Repeats for 3D Scene Reconstruction [3.948390930350905]
シングルビュー3Dシーン再構成は、オブジェクト形状と空間配置の両方を推測する。
既存のメソッドは通常、オブジェクトを独立して再構築するか、暗黙のシーンコンテキストに依存します。
FurnSetは、繰り返しオブジェクトインスタンスを明示的に識別し、活用して再構築を改善するフレームワークである。
論文 参考訳(メタデータ) (2026-04-22T01:27:13Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images [27.025336665386735]
モノクロモーションビデオ/画像から手動3D変換を推定するための,ロバストでキーポイントのない手法を提案する。
さらにこれを多視点再構成パイプラインに統合し,手動物体の形状を正確に復元する。
提案手法は,HOSt3Rと命名され,非拘束であり,事前スキャンされたオブジェクトテンプレートやカメラ内在性に依存しず,最先端の性能に達する。
論文 参考訳(メタデータ) (2025-08-22T15:30:40Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - Variable Radiance Field for Real-World Category-Specific Reconstruction from Single Image [25.44715538841181]
単一画像からNeural Radiance Field(NeRF)を使用してカテゴリ固有のオブジェクトを再構成することは、有望だが挑戦的な作業である。
本稿では,カテゴリ固有のオブジェクトを効率的に再構成できる新しいフレームワークである可変放射場(VRF)を提案する。
VRFは、再構築品質と計算効率の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。