論文の概要: MESC-3D:Mining Effective Semantic Cues for 3D Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2502.20861v1
- Date: Fri, 28 Feb 2025 09:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:45.763756
- Title: MESC-3D:Mining Effective Semantic Cues for 3D Reconstruction from a Single Image
- Title(参考訳): MESC-3D:単一画像からの3次元再構成のための効果的なセマンティックキューのマイニング
- Authors: Shaoming Li, Qing Cai, Songqi Kong, Runqing Tan, Heng Tong, Shiji Qiu, Yongguo Jiang, Zhi Liu,
- Abstract要約: 単一画像からの3次元再構成のためのマイニング有効セマンティックキュース(MESC-3D)と呼ばれる新しい1次元画像再構成法を提案する。
具体的には、ポイントクラウドとイメージセマンティック属性間の接続を確立するための効果的なセマンティックマイニングモジュールを設計する。
このモジュールは空間構造のセマンティックな理解を取り入れており、モデルがより正確でリアルな3Dオブジェクトを解釈し再構築することができる。
- 参考スコア(独自算出の注目度): 8.095737075287204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D shapes from a single image plays an important role in computer vision. Many methods have been proposed and achieve impressive performance. However, existing methods mainly focus on extracting semantic information from images and then simply concatenating it with 3D point clouds without further exploring the concatenated semantics. As a result, these entangled semantic features significantly hinder the reconstruction performance. In this paper, we propose a novel single-image 3D reconstruction method called Mining Effective Semantic Cues for 3D Reconstruction from a Single Image (MESC-3D), which can actively mine effective semantic cues from entangled features. Specifically, we design an Effective Semantic Mining Module to establish connections between point clouds and image semantic attributes, enabling the point clouds to autonomously select the necessary information. Furthermore, to address the potential insufficiencies in semantic information from a single image, such as occlusions, inspired by the human ability to represent 3D objects using prior knowledge drawn from daily experiences, we introduce a 3D Semantic Prior Learning Module. This module incorporates semantic understanding of spatial structures, enabling the model to interpret and reconstruct 3D objects with greater accuracy and realism, closely mirroring human perception of complex 3D environments. Extensive evaluations show that our method achieves significant improvements in reconstruction quality and robustness compared to prior works. Additionally, further experiments validate the strong generalization capabilities and excels in zero-shot preformance on unseen classes. Code is available at https://github.com/QINGQINGLE/MESC-3D.
- Abstract(参考訳): 1枚の画像から3D形状を再構成することは、コンピュータビジョンにおいて重要な役割を果たす。
多くの手法が提案され、優れた性能を実現している。
しかし,既存の手法は主に画像から意味情報を抽出し,それを3Dポイント・クラウドと簡単に結合することに焦点を当てている。
その結果、これらの絡み合った意味的特徴が再建性能を著しく損なうことになった。
本稿では, 単一画像からの3次元再構成のためのマイニング・エフェクト・セマンティック・キュー (MESC-3D) と呼ばれる, 絡み合った特徴から効果的なセマンティック・キューを積極的にマイニングできる新しい1次元画像再構成手法を提案する。
具体的には、ポイントクラウドとイメージセマンティック属性間の接続を確立するための効果的なセマンティックマイニングモジュールを設計し、ポイントクラウドが必要な情報を自律的に選択できるようにする。
さらに、日常的な経験から得られた事前知識を用いて3Dオブジェクトを表現できる人間の能力に触発された、オクルージョンのような単一画像からのセマンティック情報の潜在的な不足に対処するため、3Dセマンティック・プライオリティ・ラーニング・モジュールを導入する。
このモジュールは空間構造のセマンティックな理解を取り入れており、複雑な3D環境に対する人間の認識を忠実に反映し、より正確でリアルな3Dオブジェクトの解釈と再構築を可能にしている。
大規模評価の結果,本手法は従来よりも再現性やロバスト性を大幅に向上することがわかった。
さらに、さらなる実験では、強い一般化能力が検証され、目に見えないクラスでのゼロショット前処理が優れている。
コードはhttps://github.com/QINGQINGLE/MESC-3Dで入手できる。
関連論文リスト
- Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。
我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。
Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文 参考訳(メタデータ) (2025-04-30T15:42:23Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - Multi-Modal 3D Mesh Reconstruction from Images and Text [7.9471205712560264]
少ない入力画像から3Dメッシュを再構成する言語誘導型少数ショット3D再構成法を提案する。
テクスチャとテクスチャの精度と品質の観点から,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-03-10T11:18:17Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models [18.315856283440386]
ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
論文 参考訳(メタデータ) (2023-05-15T16:36:56Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。