論文の概要: CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
- arxiv url: http://arxiv.org/abs/2502.12894v1
- Date: Tue, 18 Feb 2025 14:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:55.925059
- Title: CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
- Title(参考訳): CAST:RGB画像からのコンポーネント対応3Dシーン再構成
- Authors: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu,
- Abstract要約: 現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。
本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
- 参考スコア(独自算出の注目度): 44.8172828045897
- License:
- Abstract: Recovering high-quality 3D scenes from a single RGB image is a challenging task in computer graphics. Current methods often struggle with domain-specific limitations or low-quality object generation. To address these, we propose CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel method for 3D scene reconstruction and recovery. CAST starts by extracting object-level 2D segmentation and relative depth information from the input image, followed by using a GPT-based model to analyze inter-object spatial relationships. This enables the understanding of how objects relate to each other within the scene, ensuring more coherent reconstruction. CAST then employs an occlusion-aware large-scale 3D generation model to independently generate each object's full geometry, using MAE and point cloud conditioning to mitigate the effects of occlusions and partial object information, ensuring accurate alignment with the source image's geometry and texture. To align each object with the scene, the alignment generation model computes the necessary transformations, allowing the generated meshes to be accurately placed and integrated into the scene's point cloud. Finally, CAST incorporates a physics-aware correction step that leverages a fine-grained relation graph to generate a constraint graph. This graph guides the optimization of object poses, ensuring physical consistency and spatial coherence. By utilizing Signed Distance Fields (SDF), the model effectively addresses issues such as occlusions, object penetration, and floating objects, ensuring that the generated scene accurately reflects real-world physical interactions. CAST can be leveraged in robotics, enabling efficient real-to-simulation workflows and providing realistic, scalable simulation environments for robotic systems.
- Abstract(参考訳): 単一のRGB画像から高品質な3Dシーンを復元することは、コンピュータグラフィックスにおいて難しい課題である。
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。
そこで我々は,CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image)を提案する。
CASTは、入力画像からオブジェクトレベルの2Dセグメンテーションと相対深度情報を抽出し、続いてGPTモデルを用いてオブジェクト間の空間関係を分析する。
これにより、シーン内でオブジェクトがどのように相互に関連しているかを理解することができ、より一貫性のある再構築が保証される。
CASTは、オクルージョンを意識した大規模3D生成モデルを使用して、各オブジェクトの完全な幾何学を独立に生成し、MAEとポイント雲条件付けを使用して、オクルージョンと部分的なオブジェクト情報の影響を緩和し、ソースイメージの幾何学とテクスチャとの正確な整合性を確保する。
各オブジェクトをシーンに合わせるために、アライメント生成モデルは必要な変換を計算し、生成されたメッシュを正確に配置し、シーンのポイントクラウドに統合する。
最後に、CASTは、微粒な関係グラフを利用して制約グラフを生成する物理認識補正ステップを組み込む。
このグラフは、オブジェクトのポーズの最適化をガイドし、物理的な一貫性と空間コヒーレンスを保証する。
Signed Distance Fields (SDF) を利用することで、オクルージョンやオブジェクトの侵入、浮動小天体などの問題に効果的に対処し、生成されたシーンが現実世界の物理的相互作用を正確に反映することを保証する。
CASTはロボット工学に活用でき、効率的なリアルタイムシミュレーションワークフローを可能にし、ロボットシステムのための現実的でスケーラブルなシミュレーション環境を提供する。
関連論文リスト
- 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Gaussian Object Carver: Object-Compositional Gaussian Splatting with surfaces completion [16.379647695019308]
3Dシーンの再構築はコンピュータビジョンの基本的な問題である。
本稿では,Gaussian Object Carver (GOC)を紹介した。
GOCは、高品質で柔軟な再構築を実現するために、モノクラー幾何学の先行と多視点幾何学の正規化に富んだ3Dガウススプラッティング(GS)を利用する。
論文 参考訳(メタデータ) (2024-12-03T01:34:39Z) - Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。
提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。
提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文 参考訳(メタデータ) (2024-03-28T11:12:33Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - 3DFusion, A real-time 3D object reconstruction pipeline based on
streamed instance segmented data [0.552480439325792]
本稿では,RGB-D画像を利用したリアルタイムセグメンテーション・再構築システムを提案する。
システムはRGB-Dデータに対して画素レベルのセグメンテーションを行い、背景オブジェクトを効果的に分離する。
リアルタイム3Dモデリングは、拡張現実、仮想現実、インテリアデザイン、都市計画、道路支援、セキュリティシステムなど、さまざまな分野に適用することができる。
論文 参考訳(メタデータ) (2023-11-11T20:11:58Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving
Objects [115.71874459429381]
本研究では, 物体の3次元形状, テクスチャ, 動きを単一動画像から共同で再構成する新しい課題について述べる。
従来の手法では2次元画像領域でのみ遅延問題に対処するが、3次元領域における全ての物体特性の厳密なモデリングは任意の物体の動きの正確な記述を可能にする。
論文 参考訳(メタデータ) (2021-06-16T13:18:08Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。