論文の概要: AdaptSplat: Adapting Vision Foundation Models for Feed-Forward 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2605.10239v2
- Date: Mon, 18 May 2026 06:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.251492
- Title: AdaptSplat: Adapting Vision Foundation Models for Feed-Forward 3D Gaussian Splatting
- Title(参考訳): AdaptSplat: フィードフォワード3次元ガウス平滑化のためのビジョンファウンデーションモデルの適用
- Authors: Mingwei Xing, Xinliang Wang, Yifeng Shi,
- Abstract要約: 本研究は, フィードフォワード型3次元ガウススプラッティングのための簡易かつ軽量なアダプタ設計について検討する(3DGS)
我々は、強力な視覚基盤モデルバックボーンの浅い特徴から、方向対応の高周波構造先行情報を抽出する周波数保存アダプタを設計する。
実験により、AdaptSplatは、複数の標準ベンチマーク上で、最先端のフィードフォワード再構築性能を達成することが示された。
- 参考スコア(独自算出の注目度): 10.259254902492978
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work explores a simple yet powerful lightweight adapter design for feed-forward 3D Gaussian Splatting (3DGS). Existing methods typically apply complex, architecture-specific designs on top of the generic pipeline of image feature extraction $\rightarrow$ multi-view interaction $\rightarrow$ feature decoding. However, constrained by the scale bottleneck of 3D training data and the low-pass filtering effect of deep networks, these methods still fall short in cross-domain generalization and high-frequency geometric fidelity. To address these problems, we propose AdaptSplat, which demonstrates that without complex component engineering, introducing a single adapter of only 1.5M parameters into the generic architecture is sufficient to achieve superior performance. Specifically, we design a lightweight Frequency-Preserving Adapter (FPA) that extracts direction-aware high-frequency structural priors from the shallow features of a powerful vision foundation model backbone, and seamlessly integrates them into the generic pipeline via high-frequency positional encodings and adaptive residual modulation. This effectively compensates for the high-frequency attenuation caused by over-smoothing in deep features, improving the fitting accuracy of Gaussian primitives on complex surfaces and sharp boundaries. Extensive experiments demonstrate that AdaptSplat achieves state-of-the-art feed-forward reconstruction performance on multiple standard benchmarks, with stable generalization across domains. Code available at: https://github.com/xmw666/AdaptSplat.
- Abstract(参考訳): 本研究は, フィードフォワード3Dガウススプラッティング(3DGS)のための簡易かつ軽量なアダプタ設計について検討する。
既存のメソッドは通常、画像特徴抽出のジェネリックパイプラインの上に複雑なアーキテクチャ固有の設計を適用する。
しかし、3Dトレーニングデータのスケールボトルネックとディープネットワークの低パスフィルタリング効果に制約され、これらの手法は依然としてクロスドメインの一般化と高周波幾何学的忠実度において不足している。
これらの問題に対処するため,AdaptSplatを提案する。これは複雑なコンポーネント工学がなければ,1.5Mパラメータのみの単一アダプタをジェネリックアーキテクチャに導入することで,優れた性能を実現するのに十分であることを示す。
具体的には、強力な視覚基盤モデルバックボーンの浅い特徴から方向対応の高周波構造を抽出する軽量な周波数保存アダプタ(FPA)を設計し、高周波位置符号化と適応残差変調によりそれらをジェネリックパイプラインにシームレスに統合する。
これにより、深い特徴の過度な平滑化に起因する高周波減衰を効果的に補償し、複素曲面と鋭い境界に対するガウス原始体の適合精度を向上させることができる。
広範囲な実験により、AdaptSplatは複数の標準ベンチマーク上で最先端のフィードフォワード再構成性能を達成し、ドメイン間の安定な一般化を実現している。
コードは、https://github.com/xmw666/AdaptSplat.comで入手できる。
関連論文リスト
- Unfolding 3D Gaussian Splatting via Iterative Gaussian Synopsis [48.743921535513635]
イテレーティブ・ガウス・シンプシス(Iterative Gaussian Synopsis)は、トップダウンの「展開」スキームを通じてコンパクトでプログレッシブなレンダリングを行うための新しいフレームワークである。
提案手法は3DGSモデルから始まり,適応的かつ学習可能なマスクベースプルーニング機構を用いて,粗いLODを反復的に導出する。
この組み合わせはコンパクトで表現力のある特徴表現を生み出し、冗長性を最小化し、効率よく、レベル固有の適応をサポートするように設計されている。
論文 参考訳(メタデータ) (2026-04-13T16:28:35Z) - SurfelSplat: Learning Efficient and Generalizable Gaussian Surfel Representations for Sparse-View Surface Reconstruction [30.66530885236685]
3D Gaussian Splatting (3DGS) は3Dシーン再構成において顕著な性能を示した。
スパースビュー画像から効率よく一般化可能な画素アライメントを生成できるフィードフォワードフレームワークであるSurfelSplatを提案する。
我々のモデルは最先端の手法で同等の結果を得ることができ、1秒以内でガウス波を予測でき、100倍のスピードアップが可能であり、シーンごとのトレーニングに費用がかからない。
論文 参考訳(メタデータ) (2026-04-09T15:34:24Z) - One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation [92.57609195819647]
MuSASplatは、ポーズなしフィードフォワード3Dガウスモデルの計算負担を劇的に削減する新しいフレームワークである。
我々のアプローチの中心は、ほんのわずかなトレーニングパラメータだけで、ViTベースのアーキテクチャを効率的に微調整できる軽量なマルチスケールアダプタである。
論文 参考訳(メタデータ) (2025-12-08T04:56:46Z) - High-resolution Photo Enhancement in Real-time: A Laplacian Pyramid Network [73.19214585791268]
本稿では,LLF-LUT++と呼ばれるピラミッドネットワークについて紹介する。
具体的には,ダウンサンプリング画像のグローバル音節特性を活かした画像適応型3D LUTを利用する。
LLF-LUT++は、HDR+データセット上でPSNRが2.64dB改善されただけでなく、4K解像度の画像を1つのGPUでわずか13msで処理することで、さらに削減されている。
論文 参考訳(メタデータ) (2025-10-13T16:52:32Z) - MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction [32.14335364083271]
新規なビュー合成のためのフィードフォワードアプローチであるMulti-Baseline Gaussian Splatting (MuGS)を提案する。
MuGSは、小さなベースラインと大きなベースラインの両方でスパース入力ビューを含む、多様なベースライン設定を効果的に処理する。
LLFFおよびMip-NeRF 360データセットにおけるゼロショット性能を実証した。
論文 参考訳(メタデータ) (2025-08-06T10:34:24Z) - GBR: Generative Bundle Refinement for High-fidelity Gaussian Splatting with Enhanced Mesh Reconstruction [27.747748706297497]
GBR(Generative Bundle Refinement)は、4-6の入力ビューのみを用いた高忠実なガウススプラッティングとメッシュ化のための手法である。
GBRは、幾何学的精度を高めるために神経束調整モジュールと、幾何学的忠実性を改善するために生成深度改善モジュールを統合している。
GBRは、大規模な現実世界のシーンを再構築し、レンダリングする能力を示している。
論文 参考訳(メタデータ) (2024-12-08T12:00:25Z) - GeoSplatting: Towards Geometry Guided Gaussian Splatting for Physically-based Inverse Rendering [69.67264955234494]
GeoSplattingは、3DGSを精密な光輸送モデリングのための明確な幾何学的ガイダンスで拡張する新しいアプローチである。
最適化可能なメッシュから表面積の3DGSを微分的に構築することにより、明確に定義されたメッシュ正規と不透明なメッシュ表面を利用する。
この強化により、3DGSの効率性と高品質なレンダリング能力を保ちながら、正確な材料分解が保証される。
論文 参考訳(メタデータ) (2024-10-31T17:57:07Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。