論文の概要: M3D: Dual-Stream Selective State Spaces and Depth-Driven Framework for High-Fidelity Single-View 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2411.12635v2
- Date: Wed, 20 Nov 2024 12:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:49.17671
- Title: M3D: Dual-Stream Selective State Spaces and Depth-Driven Framework for High-Fidelity Single-View 3D Reconstruction
- Title(参考訳): M3D:高忠実度シングルビュー3D再構成のためのデュアルストリーム選択状態空間と深さ駆動フレームワーク
- Authors: Luoxi Zhang, Pragyan Shrestha, Yu Zhou, Chun Xie, Itaru Kitahara,
- Abstract要約: M3Dは複雑なシーンのための新しい単一ビュー3D再構成フレームワークである。
グローバルな特徴と局所的な特徴の抽出のバランスを保ち、シーンの理解と表現精度を向上させる。
その結果,2重分岐特徴抽出による深度情報との融合により,幾何的整合性と忠実度が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.2228041579285978
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The precise reconstruction of 3D objects from a single RGB image in complex scenes presents a critical challenge in virtual reality, autonomous driving, and robotics. Existing neural implicit 3D representation methods face significant difficulties in balancing the extraction of global and local features, particularly in diverse and complex environments, leading to insufficient reconstruction precision and quality. We propose M3D, a novel single-view 3D reconstruction framework, to tackle these challenges. This framework adopts a dual-stream feature extraction strategy based on Selective State Spaces to effectively balance the extraction of global and local features, thereby improving scene comprehension and representation precision. Additionally, a parallel branch extracts depth information, effectively integrating visual and geometric features to enhance reconstruction quality and preserve intricate details. Experimental results indicate that the fusion of multi-scale features with depth information via the dual-branch feature extraction significantly boosts geometric consistency and fidelity, achieving state-of-the-art reconstruction performance.
- Abstract(参考訳): 複雑なシーンで1枚のRGB画像から3Dオブジェクトを正確に再構築することは、仮想現実、自律運転、ロボット工学において重要な課題となっている。
既存の暗黙的3D表現法は、特に多様で複雑な環境において、グローバルな特徴や局所的な特徴の抽出のバランスをとる上で重大な困難に直面しており、再構築精度と品質が不十分である。
これらの課題に対処するために,新しい一視点3D再構成フレームワークであるM3Dを提案する。
このフレームワークは、選択状態空間に基づくデュアルストリーム特徴抽出戦略を採用し、グローバルな特徴とローカルな特徴の抽出を効果的にバランスさせ、シーンの理解と表現精度を向上させる。
さらに、並列分岐は深度情報を抽出し、視覚的特徴と幾何学的特徴を効果的に統合し、復元品質を高め、複雑な詳細を保存する。
実験結果から,デュアルブランチ特徴抽出による深度情報との融合により,幾何的整合性と忠実度が著しく向上し,最先端の復元性能が達成された。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-12-03T17:59:05Z) - LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - LoG3D: Ultra-High-Resolution 3D Shape Modeling via Local-to-Global Partitioning [26.88556500272625]
非符号距離場(UDF)に基づく新しい3次元変分オートエンコーダフレームワークを提案する。
私たちの中心となるイノベーションは、UDFを統一サブボリュームであるUBlockに分割することで処理する、ローカルからグローバルなアーキテクチャです。
再現精度と生成品質の両面での最先端性能を実証し,表面の滑らかさと幾何学的柔軟性を向上した。
論文 参考訳(メタデータ) (2025-11-13T07:34:43Z) - MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - High-fidelity 3D Gaussian Inpainting: preserving multi-view consistency and photorealistic details [8.279171283542066]
3Dシーンの塗装は、3D構造に固有の不規則性のため、依然として難しい課題である。
本稿では,スパース・インペインティング・ビューを活用することで,完全な3Dシーンを再構築する新しい3Dガウス・インペインティング・フレームワークを提案する。
我々の手法は、視覚的品質と視界の整合性の両方において、既存の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2025-07-24T01:48:50Z) - SRMambaV2: Biomimetic Attention for Sparse Point Cloud Upsampling in Autonomous Driving [5.37678005473655]
自律運転シナリオにおけるLiDARポイントクラウドのアップサンプリングは、データ固有の空間性と複雑な3D構造のため、依然として大きな課題である。
本研究では,長距離スパース領域におけるアップサンプリング精度を高めるスパルス点雲アップサンプリング手法であるNonambaV2を提案する。
実験により,ambaV2は定性評価と定量的評価の両方において優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-23T13:01:19Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - A Generative Approach to High Fidelity 3D Reconstruction from Text Data [0.0]
本研究では,テキスト・画像生成をシームレスに統合する完全自動パイプライン,様々な画像処理技術,反射除去と3次元再構成のためのディープラーニング手法を提案する。
安定拡散のような最先端の生成モデルを活用することで、この手法は自然言語の入力を多段階のワークフローを通じて詳細な3Dモデルに変換する。
このアプローチは、意味的コヒーレンスを維持すること、幾何学的複雑さを管理すること、詳細な視覚情報を保存することなど、生成的再構築における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-03-05T16:54:15Z) - Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。
画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。
生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文 参考訳(メタデータ) (2024-11-17T03:14:50Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment [23.733856513456]
単一画像からの合成3Dアセット生成のための新しいアプローチであるREPAROを提案する。
まず、シーンから個々のオブジェクトを抽出し、オフザシェルフ画像から3Dモデルを使用して、それらの3Dメッシュを再構築する。
次に、異なるレンダリング技術によってこれらのメッシュのレイアウトを最適化し、コヒーレントなシーン構成を保証する。
論文 参考訳(メタデータ) (2024-05-28T18:45:10Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - 3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surface [8.824340350342512]
3DFIRESは、ポーズ画像からシーンレベルの3D再構成を行う新しいシステムである。
単一視点再構成法の有効性を1つの入力で示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:50Z) - UniSDF: Unifying Neural Representations for High-Fidelity 3D
Reconstruction of Complex Scenes with Reflections [92.38975002642455]
大規模な複雑なシーンをリフレクションで再構成できる汎用3次元再構成手法UniSDFを提案する。
提案手法は,複雑な大規模シーンを細部と反射面で頑健に再構築することができる。
論文 参考訳(メタデータ) (2023-12-20T18:59:42Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。