論文の概要: MESC-3D:Mining Effective Semantic Cues for 3D Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2502.20861v1
- Date: Fri, 28 Feb 2025 09:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:53.932209
- Title: MESC-3D:Mining Effective Semantic Cues for 3D Reconstruction from a Single Image
- Title(参考訳): MESC-3D:単一画像からの3次元再構成のための効果的なセマンティックキューのマイニング
- Authors: Shaoming Li, Qing Cai, Songqi Kong, Runqing Tan, Heng Tong, Shiji Qiu, Yongguo Jiang, Zhi Liu,
- Abstract要約: 単一画像からの3次元再構成のためのマイニング有効セマンティックキュース(MESC-3D)と呼ばれる新しい1次元画像再構成法を提案する。
具体的には、ポイントクラウドとイメージセマンティック属性間の接続を確立するための効果的なセマンティックマイニングモジュールを設計する。
このモジュールは空間構造のセマンティックな理解を取り入れており、モデルがより正確でリアルな3Dオブジェクトを解釈し再構築することができる。
- 参考スコア(独自算出の注目度): 8.095737075287204
- License:
- Abstract: Reconstructing 3D shapes from a single image plays an important role in computer vision. Many methods have been proposed and achieve impressive performance. However, existing methods mainly focus on extracting semantic information from images and then simply concatenating it with 3D point clouds without further exploring the concatenated semantics. As a result, these entangled semantic features significantly hinder the reconstruction performance. In this paper, we propose a novel single-image 3D reconstruction method called Mining Effective Semantic Cues for 3D Reconstruction from a Single Image (MESC-3D), which can actively mine effective semantic cues from entangled features. Specifically, we design an Effective Semantic Mining Module to establish connections between point clouds and image semantic attributes, enabling the point clouds to autonomously select the necessary information. Furthermore, to address the potential insufficiencies in semantic information from a single image, such as occlusions, inspired by the human ability to represent 3D objects using prior knowledge drawn from daily experiences, we introduce a 3D Semantic Prior Learning Module. This module incorporates semantic understanding of spatial structures, enabling the model to interpret and reconstruct 3D objects with greater accuracy and realism, closely mirroring human perception of complex 3D environments. Extensive evaluations show that our method achieves significant improvements in reconstruction quality and robustness compared to prior works. Additionally, further experiments validate the strong generalization capabilities and excels in zero-shot preformance on unseen classes. Code is available at https://github.com/QINGQINGLE/MESC-3D.
- Abstract(参考訳): 1枚の画像から3D形状を再構成することは、コンピュータビジョンにおいて重要な役割を果たす。
多くの手法が提案され、優れた性能を実現している。
しかし,既存の手法は主に画像から意味情報を抽出し,それを3Dポイント・クラウドと簡単に結合することに焦点を当てている。
その結果、これらの絡み合った意味的特徴が再建性能を著しく損なうことになった。
本稿では, 単一画像からの3次元再構成のためのマイニング・エフェクト・セマンティック・キュー (MESC-3D) と呼ばれる, 絡み合った特徴から効果的なセマンティック・キューを積極的にマイニングできる新しい1次元画像再構成手法を提案する。
具体的には、ポイントクラウドとイメージセマンティック属性間の接続を確立するための効果的なセマンティックマイニングモジュールを設計し、ポイントクラウドが必要な情報を自律的に選択できるようにする。
さらに、日常的な経験から得られた事前知識を用いて3Dオブジェクトを表現できる人間の能力に触発された、オクルージョンのような単一画像からのセマンティック情報の潜在的な不足に対処するため、3Dセマンティック・プライオリティ・ラーニング・モジュールを導入する。
このモジュールは空間構造のセマンティックな理解を取り入れており、複雑な3D環境に対する人間の認識を忠実に反映し、より正確でリアルな3Dオブジェクトの解釈と再構築を可能にしている。
大規模評価の結果,本手法は従来よりも再現性やロバスト性を大幅に向上することがわかった。
さらに、さらなる実験では、強い一般化能力が検証され、目に見えないクラスでのゼロショット前処理が優れている。
コードはhttps://github.com/QINGQINGLE/MESC-3Dで入手できる。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models [18.315856283440386]
ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
論文 参考訳(メタデータ) (2023-05-15T16:36:56Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。