論文の概要: One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion
- arxiv url: http://arxiv.org/abs/2601.14161v1
- Date: Tue, 20 Jan 2026 17:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.424978
- Title: One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion
- Title(参考訳): ワンショットリファイナ:ワンステップ拡散によるフィードフォワード新規ビュー合成の促進
- Authors: Yitong Dong, Qi Zhang, Minchao Jiang, Zhiqiang Wu, Qingnan Fan, Ying Feng, Huaqi Zhang, Hujun Bao, Guofeng Zhang,
- Abstract要約: スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
- 参考スコア(独自算出の注目度): 57.824020826432815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel framework for high-fidelity novel view synthesis (NVS) from sparse images, addressing key limitations in recent feed-forward 3D Gaussian Splatting (3DGS) methods built on Vision Transformer (ViT) backbones. While ViT-based pipelines offer strong geometric priors, they are often constrained by low-resolution inputs due to computational costs. Moreover, existing generative enhancement methods tend to be 3D-agnostic, resulting in inconsistent structures across views, especially in unseen regions. To overcome these challenges, we design a Dual-Domain Detail Perception Module, which enables handling high-resolution images without being limited by the ViT backbone, and endows Gaussians with additional features to store high-frequency details. We develop a feature-guided diffusion network, which can preserve high-frequency details during the restoration process. We introduce a unified training strategy that enables joint optimization of the ViT-based geometric backbone and the diffusion-based refinement module. Experiments demonstrate that our method can maintain superior generation quality across multiple datasets.
- Abstract(参考訳): 本稿では,視覚トランスフォーマー(ViT)バックボーン上に構築された最近のフィードフォワード3Dガウススプラッティング(3DGS)手法における重要な制約に対処する,スパース画像からの高忠実ノベルビュー合成(NVS)のための新しいフレームワークを提案する。
ViTベースのパイプラインは強力な幾何学的先行性を提供するが、計算コストのために低解像度の入力によって制約されることが多い。
さらに、既存の生成的拡張法は3Dに依存しない傾向にあり、特に見えない地域では、視界を横断する不整合構造が生じる。
これらの課題を克服するために、VTバックボーンに制限されることなく高解像度画像の処理を可能にするDual-Domain Detail Perception Moduleを設計し、高頻度の詳細を格納するための追加機能をガウスに与える。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
我々は、ViTベースの幾何バックボーンと拡散ベースのリファインメントモジュールを共同で最適化できる統一的なトレーニング戦略を導入する。
実験により,本手法は複数のデータセットにまたがって優れた生成品質を維持可能であることが示された。
関連論文リスト
- Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting [21.952325954391508]
本稿では、3DGSベースのフレームワークであるGesplatを紹介し、ロバストな新しいビュー合成と、未提示のスパース画像からの幾何的に一貫した再構成を可能にする。
提案手法は,他のポーズフリー手法と比較して,前方および大規模の複雑なデータセット上でより堅牢な性能を実現する。
論文 参考訳(メタデータ) (2025-10-11T08:13:46Z) - RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - SuperGS: Consistent and Detailed 3D Super-Resolution Scene Reconstruction via Gaussian Splatting [6.309174895120047]
3D Gaussian Splatting (3DGS)は、新しいビュー合成(NVS)に優れ、リアルタイムレンダリング機能と優れた品質を備えている。
しかし、低解像度の入力ビューから派生したプリミティブの粗い性質のため、高解像度の新規ビュー合成(HRNVS)の課題に直面している。
2段階の粗大なトレーニングフレームワークで設計したScaffold-GSの拡張であるSuperGSを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:33:57Z) - Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis [22.767866875051013]
本稿では,現行手法の限界に対処する多視点拡散モデルを用いて,新しい3DGSフレームワークであるGS-Diffを提案する。
マルチビュー入力に条件付き擬似観測を生成することにより、制約の少ない3次元再構成問題をよく表されたものに変換する。
4つのベンチマークの実験では、GS-Diffは最先端のベースラインをかなりのマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-02T17:59:46Z) - MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction [44.592566642185425]
MuDGはマルチモーダル拡散モデルとガウススプラッティング(GS)を統合した革新的なフレームワークである。
我々は,MDGが再現性および光現実性合成品質の両方において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-13T17:48:41Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。