論文の概要: MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes
- arxiv url: http://arxiv.org/abs/2602.06158v1
- Date: Thu, 05 Feb 2026 19:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.087588
- Title: MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes
- Title(参考訳): MGP-KADとKolmogorov-Arnoldデコーダ
- Authors: Luoxi Zhang, Chun Xie, Itaru Kitahara,
- Abstract要約: 複雑な現実世界のシーンにおける単一ビューの3D再構成は、ノイズ、オブジェクトの多様性、データセットの可用性の制限によって困難である。
再構成精度を高めるためにRGBと幾何を統合した新しいマルチモーダル機能融合フレームワーク MGP-KAD を提案する。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-view 3D reconstruction in complex real-world scenes is challenging due to noise, object diversity, and limited dataset availability. To address these challenges, we propose MGP-KAD, a novel multimodal feature fusion framework that integrates RGB and geometric prior to enhance reconstruction accuracy. The geometric prior is generated by sampling and clustering ground-truth object data, producing class-level features that dynamically adjust during training to improve geometric understanding. Additionally, we introduce a hybrid decoder based on Kolmogorov-Arnold Networks (KAN) to overcome the limitations of traditional linear decoders in processing complex multimodal inputs. Extensive experiments on the Pix3D dataset demonstrate that MGP-KAD achieves state-of-the-art (SOTA) performance, significantly improving geometric integrity, smoothness, and detail preservation. Our work provides a robust and effective solution for advancing single-view 3D reconstruction in complex scenes.
- Abstract(参考訳): 複雑な現実世界のシーンにおける単一ビューの3D再構成は、ノイズ、オブジェクトの多様性、データセットの可用性の制限によって困難である。
これらの課題に対処するために、再構成精度を高めるためにRGBと幾何を統合する新しいマルチモーダル特徴融合フレームワークであるMGP-KADを提案する。
幾何的事前は、地中構造オブジェクトデータのサンプリングとクラスタリングによって生成され、幾何学的理解を改善するためにトレーニング中に動的に調整されるクラスレベルの特徴を生成する。
さらに,KAN(Kolmogorov-Arnold Networks)に基づくハイブリッドデコーダを導入し,複雑なマルチモーダル入力処理における従来の線形デコーダの限界を克服する。
Pix3Dデータセットの大規模な実験により、MGP-KADは最先端(SOTA)のパフォーマンスを実現し、幾何的完全性、滑らかさ、詳細保存を大幅に改善した。
我々の研究は、複雑な場面で一視点の3D再構成を進めるための堅牢で効果的なソリューションを提供する。
関連論文リスト
- MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT [10.984522161856955]
3D再構成は、拡張現実やバーチャルリアリティー、自動運転、ロボット工学など、多くの応用の基盤となる技術だ。
ディープラーニングは、3D再構築におけるパラダイムシフトを触媒している。
新しいモデルでは、統合されたディープネットワークを使用して、カメラのポーズと密集した幾何学を、1つの前方通過における非拘束画像から直接推測する。
論文 参考訳(メタデータ) (2025-07-11T09:41:54Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - Mono3R: Exploiting Monocular Cues for Geometric 3D Reconstruction [11.220655907305515]
多視点再構成フレームワークにモノクラー幾何の先行を組み込んだモノクラー誘導リファインメントモジュールを導入する。
本手法は,マルチビューカメラのポーズ推定と点雲の精度の両面で大幅に向上する。
論文 参考訳(メタデータ) (2025-04-18T02:33:12Z) - Niagara: Normal-Integrated Geometric Affine Field for Scene Reconstruction from a Single View [45.43074998299703]
Niagaraは、単一入力画像から挑戦的な屋外シーンを忠実に再構築することのできる、新しいワンビュー3Dシーン再構築フレームワークである。
幾何的アフィン場(GAF)と3次元自己アテンションを幾何学制約として導入し、明示的幾何学の構造的性質と暗黙的特徴場の適応性を組み合わせた。
そこでは,3次元ガウスパラメータを予測するために,奥行きに基づく3次元ガウスデコーダを提案する。
論文 参考訳(メタデータ) (2025-03-16T15:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。