論文の概要: FVGen: Accelerating Novel-View Synthesis with Adversarial Video Diffusion Distillation
- arxiv url: http://arxiv.org/abs/2508.06392v1
- Date: Fri, 08 Aug 2025 15:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.283482
- Title: FVGen: Accelerating Novel-View Synthesis with Adversarial Video Diffusion Distillation
- Title(参考訳): FVGen: 逆ビデオ拡散蒸留による新規ビュー合成の高速化
- Authors: Wenbin Teng, Gonglin Chen, Haiwei Chen, Yajie Zhao,
- Abstract要約: 本稿では,ビデオ拡散モデル(VDM)を用いた高速な新規ビュー合成を可能にするフレームワークであるFVGenについて,わずか4つのサンプリングステップで述べる。
我々のフレームワークは、サンプリング時間を90%以上削減しつつ、類似の(あるいはさらに良い)視覚的品質で、同じ数の新規ビューを生成します。
- 参考スコア(独自算出の注目度): 7.731788894265875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in 3D reconstruction has enabled realistic 3D models from dense image captures, yet challenges persist with sparse views, often leading to artifacts in unseen areas. Recent works leverage Video Diffusion Models (VDMs) to generate dense observations, filling the gaps when only sparse views are available for 3D reconstruction tasks. A significant limitation of these methods is their slow sampling speed when using VDMs. In this paper, we present FVGen, a novel framework that addresses this challenge by enabling fast novel view synthesis using VDMs in as few as four sampling steps. We propose a novel video diffusion model distillation method that distills a multi-step denoising teacher model into a few-step denoising student model using Generative Adversarial Networks (GANs) and softened reverse KL-divergence minimization. Extensive experiments on real-world datasets show that, compared to previous works, our framework generates the same number of novel views with similar (or even better) visual quality while reducing sampling time by more than 90%. FVGen significantly improves time efficiency for downstream reconstruction tasks, particularly when working with sparse input views (more than 2) where pre-trained VDMs need to be run multiple times to achieve better spatial coverage.
- Abstract(参考訳): 3D再構成の最近の進歩は、密集した画像キャプチャーから現実的な3Dモデルを可能にするが、スパースビューで難題が続き、しばしば目に見えない領域のアーティファクトに繋がる。
近年の研究では,ビデオ拡散モデル(VDM)を用いて高密度な観測を行い,3次元再構成作業において,疎視のみが可能な場合のギャップを埋めている。
これらの手法の顕著な制限は、VDMを使用する際のサンプリング速度の遅さである。
本稿では,この課題に対処する新しいフレームワークであるFVGenを提案する。
本稿では,GAN(Generative Adversarial Networks)とソフト化逆KL分割最小化(Softened reverse KL-divergence Minimization)を用いて,教師モデルを数段階の生徒モデルに蒸留するビデオ拡散モデル蒸留法を提案する。
実世界のデータセットに対する大規模な実験により、我々のフレームワークは以前の研究と比較すると、類似の(あるいはそれ以上の)視覚的品質を持つ新しいビューを同じ数生成し、サンプリング時間を90%以上削減した。
FVGenは下流再構成タスクの時間効率を著しく向上させ、特に空間的カバレッジを向上させるために、トレーニング済みのVDMを複数回実行する必要がある場合(2回以上)のスパース入力ビューで作業する場合に顕著に改善する。
関連論文リスト
- FlowR: Flowing from Sparse to Dense 3D Reconstructions [60.28571003356382]
そこで本研究では,疎度な再現から密度な再構成に期待できるレンダリングまで,新しいビューレンダリングを接続するためのフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
論文 参考訳(メタデータ) (2025-04-02T11:57:01Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。