論文の概要: AutoRefiner: Improving Autoregressive Video Diffusion Models via Reflective Refinement Over the Stochastic Sampling Path
- arxiv url: http://arxiv.org/abs/2512.11203v2
- Date: Mon, 15 Dec 2025 05:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.254061
- Title: AutoRefiner: Improving Autoregressive Video Diffusion Models via Reflective Refinement Over the Stochastic Sampling Path
- Title(参考訳): AutoRefiner: 確率サンプリングパス上の反射リファインメントによる自己回帰型ビデオ拡散モデルの改善
- Authors: Zhengyang Yu, Akio Hayakawa, Masato Ishii, Qingtao Yu, Takashi Shibuya, Jing Zhang, Yuki Mitsufuji,
- Abstract要約: 自動回帰ビデオ拡散モデル(AR-VDM)は、双方向VDMに代わるスケーラブルな代替手段として強く期待されている。
本稿では,AR-VDMに適したノイズリファインダであるAutoRefinerを提案する。
- 参考スコア(独自算出の注目度): 35.313071797887176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models (AR-VDMs) show strong promise as scalable alternatives to bidirectional VDMs, enabling real-time and interactive applications. Yet there remains room for improvement in their sample fidelity. A promising solution is inference-time alignment, which optimizes the noise space to improve sample fidelity without updating model parameters. Yet, optimization- or search-based methods are computationally impractical for AR-VDMs. Recent text-to-image (T2I) works address this via feedforward noise refiners that modulate sampled noises in a single forward pass. Can such noise refiners be extended to AR-VDMs? We identify the failure of naively extending T2I noise refiners to AR-VDMs and propose AutoRefiner-a noise refiner tailored for AR-VDMs, with two key designs: pathwise noise refinement and a reflective KV-cache. Experiments demonstrate that AutoRefiner serves as an efficient plug-in for AR-VDMs, effectively enhancing sample fidelity by refining noise along stochastic denoising paths.
- Abstract(参考訳): 自動回帰ビデオ拡散モデル(AR-VDM)は、双方向VDMに代わるスケーラブルな代替手段として強く期待でき、リアルタイムおよびインタラクティブなアプリケーションを可能にする。
しかし、サンプルの忠実度は改善の余地が残っている。
予測時間アライメントは、モデルパラメータを更新することなく、サンプルの忠実度を改善するためにノイズ空間を最適化する。
しかし、最適化や探索に基づく手法は、AR-VDMには実用的ではない。
最近のテキスト・トゥ・イメージ(T2I)では、単一の前方通過でサンプルノイズを変調するフィードフォワードノイズリファインダーを用いてこの問題に対処している。
このようなノイズリファインダーはAR-VDMに拡張できるのか?
我々は,AR-VDMに比例してT2Iノイズリファインダを適用できないことを認識し,AR-VDMに適したオートレファインダ(AutoRefiner-a noise refiner)を提案する。
実験により、AutoRefinerはAR-VDMの効率的なプラグインとして機能し、確率的雑音除去経路に沿ってノイズを精製することにより、試料の忠実度を効果的に向上することが示された。
関連論文リスト
- USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文 参考訳(メタデータ) (2025-12-05T14:40:06Z) - On Equivariance and Fast Sampling in Video Diffusion Models Trained with Warped Noise [27.524057973734145]
入力雑音の空間変換に同値であるように、歪んだ雑音を訓練できることが示される。
これにより、入力ノイズ中の動きは、生成されたビデオ内の動きと自然に一致させることができる。
EquiVDMはサンプリングのステップをはるかに少なくすることで、同等または優れた品質を達成する。
論文 参考訳(メタデータ) (2025-04-14T01:26:29Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Reconciling Stochastic and Deterministic Strategies for Zero-shot Image Restoration using Diffusion Model in Dual [47.141811103506036]
我々はDualにおけるReconciling Model(RDMD)と呼ばれる新しいゼロショット画像復元手法を提案する。
RDMDはbftextsingle事前学習拡散モデルのみを使用してテキスト2正規化器を構成する。
提案手法は,FFHQ と ImageNet の両方のデータセットに対する既存手法と比較して,優れた結果が得られる。
論文 参考訳(メタデータ) (2025-03-03T08:25:22Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。