論文の概要: Two Experts Are Better Than One Generalist: Decoupling Geometry and Appearance for Feed-Forward 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2603.21064v1
- Date: Sun, 22 Mar 2026 05:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.220494
- Title: Two Experts Are Better Than One Generalist: Decoupling Geometry and Appearance for Feed-Forward 3D Gaussian Splatting
- Title(参考訳): 2人のスペシャリストが1人のジェネラリストより優れている:フィードフォワード3Dガウスプラッティングの幾何学と外観の分離
- Authors: Hwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park,
- Abstract要約: 本稿では,ポーズフリーフィードフォワード3DGSフレームワークである2Xplatを紹介する。
専用の幾何学の専門家が最初にカメラのポーズを予測し、3Dガウスを合成する強力な外見の専門家に明示的に渡される。
その概念的単純さは先行研究で大半が過小評価されているにもかかわらず、提案手法は極めて効果的であることが証明されている。
- 参考スコア(独自算出の注目度): 22.824154073395878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.
- Abstract(参考訳): 高速な3次元モデリングのための新しいフロンティアを3DGS(Pose-free feed-forward 3D Gaussian Splatting)で公開した。
この領域における支配的なアプローチは、しばしば幾何学中心の3D基礎モデルに基づいて構築される統一的なモノリシックアーキテクチャを採用し、カメラのポーズを共同で推定し、単一のネットワーク内で3DGS表現を合成する。
アーキテクチャ的に合理化されているが、このようなオールインワンの設計は、幾何学的推論と外観モデリングを共有表現内で絡み合わせるため、高忠実な3DGS生成に最適である。
本研究では,ポーズフリーフィードフォワード3DGSフレームワークである2Xplatを紹介する。
専用の幾何学の専門家が最初にカメラのポーズを予測し、3Dガウスを合成する強力な外見の専門家に明示的に渡される。
その概念的単純さは先行研究で大半が過小評価されているにもかかわらず、提案手法は極めて効果的であることが証明されている。
5Kのトレーニングイテレーション未満では、提案された2専門家パイプラインは、ポーズなしフィードフォワード3DGSアプローチよりも大幅に優れており、最先端の提案手法と同等のパフォーマンスを実現している。
これらの結果は、一般的な統一パラダイムに挑戦し、複雑な3次元幾何推定および外観合成タスクのためのモジュラー設計原則の潜在的な利点を示唆している。
関連論文リスト
- G3Splat: Geometrically Consistent Generalizable Gaussian Splatting [30.752029360892504]
本稿では,幾何学的に一貫した3次元シーン表現を得るために,幾何学的先行を強制するG3Splatを紹介する。
提案手法はRE10Kを用いて, (i) 幾何的一貫した再構成, (ii) 相対的なポーズ推定, (iii) 新規なビュー合成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-19T13:11:55Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。