Fugu-MT 論文翻訳(概要): MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes

論文の概要: MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes

arxiv url: http://arxiv.org/abs/2602.06158v1
Date: Thu, 05 Feb 2026 19:54:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.087588
Title: MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes
Title（参考訳）: MGP-KADとKolmogorov-Arnoldデコーダ
Authors: Luoxi Zhang, Chun Xie, Itaru Kitahara,
Abstract要約: 複雑な現実世界のシーンにおける単一ビューの3D再構成は、ノイズ、オブジェクトの多様性、データセットの可用性の制限によって困難である。再構成精度を高めるためにRGBと幾何を統合した新しいマルチモーダル機能融合フレームワーク MGP-KAD を提案する。
参考スコア（独自算出の注目度）: 0.3823356975862005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single-view 3D reconstruction in complex real-world scenes is challenging due to noise, object diversity, and limited dataset availability. To address these challenges, we propose MGP-KAD, a novel multimodal feature fusion framework that integrates RGB and geometric prior to enhance reconstruction accuracy. The geometric prior is generated by sampling and clustering ground-truth object data, producing class-level features that dynamically adjust during training to improve geometric understanding. Additionally, we introduce a hybrid decoder based on Kolmogorov-Arnold Networks (KAN) to overcome the limitations of traditional linear decoders in processing complex multimodal inputs. Extensive experiments on the Pix3D dataset demonstrate that MGP-KAD achieves state-of-the-art (SOTA) performance, significantly improving geometric integrity, smoothness, and detail preservation. Our work provides a robust and effective solution for advancing single-view 3D reconstruction in complex scenes.
Abstract（参考訳）: 複雑な現実世界のシーンにおける単一ビューの3D再構成は、ノイズ、オブジェクトの多様性、データセットの可用性の制限によって困難である。これらの課題に対処するために、再構成精度を高めるためにRGBと幾何を統合する新しいマルチモーダル特徴融合フレームワークであるMGP-KADを提案する。幾何的事前は、地中構造オブジェクトデータのサンプリングとクラスタリングによって生成され、幾何学的理解を改善するためにトレーニング中に動的に調整されるクラスレベルの特徴を生成する。さらに,KAN(Kolmogorov-Arnold Networks)に基づくハイブリッドデコーダを導入し,複雑なマルチモーダル入力処理における従来の線形デコーダの限界を克服する。 Pix3Dデータセットの大規模な実験により、MGP-KADは最先端(SOTA)のパフォーマンスを実現し、幾何的完全性、滑らかさ、詳細保存を大幅に改善した。我々の研究は、複雑な場面で一視点の3D再構成を進めるための堅牢で効果的なソリューションを提供する。

関連論文リスト

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration [10.85658775835694]
モノクローナルな3D服の復元は、1枚の画像から完全にリアルなテクスチャ化された3Dアバターを生成することを目的としている。既存の手法は、注釈付き幾何事前のマルチビュー監視の下で一般的に訓練されており、推論の際には、これらの先行を単眼入力から事前学習されたネットワークによって推定する。そこで我々はMultiGO++という新しい再構成フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-05T09:37:55Z)
MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。 MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文参考訳（メタデータ） (2025-10-31T06:54:27Z)
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文参考訳（メタデータ） (2025-10-26T14:57:44Z)
Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT [10.984522161856955]
3D再構成は、拡張現実やバーチャルリアリティー、自動運転、ロボット工学など、多くの応用の基盤となる技術だ。ディープラーニングは、3D再構築におけるパラダイムシフトを触媒している。新しいモデルでは、統合されたディープネットワークを使用して、カメラのポーズと密集した幾何学を、1つの前方通過における非拘束画像から直接推測する。
論文参考訳（メタデータ） (2025-07-11T09:41:54Z)
DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文参考訳（メタデータ） (2025-05-17T08:46:29Z)
Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes [56.936178608296906]
我々は,MMPと呼ばれる新しいモデルを提案し,その形状をフィードフォワード方式で推定する。近年のシームズアーキテクチャに基づいて,新しい軌道符号化モジュールを導入する。 MMPはフィードフォワードのポイントマップ予測において最先端の品質を実現することができる。
論文参考訳（メタデータ） (2025-05-03T08:28:15Z)
Mono3R: Exploiting Monocular Cues for Geometric 3D Reconstruction [11.220655907305515]
多視点再構成フレームワークにモノクラー幾何の先行を組み込んだモノクラー誘導リファインメントモジュールを導入する。本手法は,マルチビューカメラのポーズ推定と点雲の精度の両面で大幅に向上する。
論文参考訳（メタデータ） (2025-04-18T02:33:12Z)
Niagara: Normal-Integrated Geometric Affine Field for Scene Reconstruction from a Single View [45.43074998299703]
Niagaraは、単一入力画像から挑戦的な屋外シーンを忠実に再構築することのできる、新しいワンビュー3Dシーン再構築フレームワークである。幾何的アフィン場(GAF)と3次元自己アテンションを幾何学制約として導入し、明示的幾何学の構造的性質と暗黙的特徴場の適応性を組み合わせた。そこでは,3次元ガウスパラメータを予測するために,奥行きに基づく3次元ガウスデコーダを提案する。
論文参考訳（メタデータ） (2025-03-16T15:50:18Z)
Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文参考訳（メタデータ） (2024-03-28T11:12:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。