論文の概要: Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.17561v1
- Date: Fri, 23 May 2025 07:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.891333
- Title: Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model
- Title(参考訳): 最高のノイズを既に知っているモデル:ビデオ拡散モデルにおける注意によるベイズアクティブノイズ選択
- Authors: Kwanyoung Kim, Sanghyun Kim,
- Abstract要約: ANSEは、注意に基づく不確実性を定量化することによって高品質なノイズシードを選択するモデル認識フレームワークである。
CogVideoX-2B と 5B の実験では、ANSE は 8% と 13% の推論時間で画質を向上することを示した。
- 参考スコア(独自算出の注目度): 7.194019884532405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of initial noise significantly affects the quality and prompt alignment of video diffusion models, where different noise seeds for the same prompt can lead to drastically different generations. While recent methods rely on externally designed priors such as frequency filters or inter-frame smoothing, they often overlook internal model signals that indicate which noise seeds are inherently preferable. To address this, we propose ANSE (Active Noise Selection for Generation), a model-aware framework that selects high-quality noise seeds by quantifying attention-based uncertainty. At its core is BANSA (Bayesian Active Noise Selection via Attention), an acquisition function that measures entropy disagreement across multiple stochastic attention samples to estimate model confidence and consistency. For efficient inference-time deployment, we introduce a Bernoulli-masked approximation of BANSA that enables score estimation using a single diffusion step and a subset of attention layers. Experiments on CogVideoX-2B and 5B demonstrate that ANSE improves video quality and temporal coherence with only an 8% and 13% increase in inference time, respectively, providing a principled and generalizable approach to noise selection in video diffusion. See our project page: https://anse-project.github.io/anse-project/
- Abstract(参考訳): 初期ノイズの選択はビデオ拡散モデルの品質と迅速なアライメントに大きく影響する。
近年の手法は周波数フィルタやフレーム間平滑化といった外部設計の先行手法に依存しているが、ノイズシードが本質的に好まれることを示す内部モデル信号を見落としていることが多い。
そこで本研究では,注目に基づく不確実性を定量化し,高品質なノイズシードを選択するモデル認識フレームワークであるANSE(Active Noise Selection for Generation)を提案する。
BANSA(Bayesian Active Noise Selection via Attention)は、複数の確率的注意サンプル間でエントロピーの不一致を測定し、モデルの信頼性と一貫性を推定する買収機能である。
本研究では,Bernolli-masked approximation of BANSAを導入し,単一拡散ステップとサブセットの注意層を用いたスコア推定を実現する。
CogVideoX-2B と 5B の実験により、ANSE は映像の質と時間的コヒーレンスを、それぞれ8% と 13% の増加で改善し、ビデオ拡散におけるノイズ選択に対する原則的および一般化可能なアプローチを提供することを示した。
https://anse-project.github.io/anse-project/
関連論文リスト
- ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [32.14142910911528]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。
近年,映像の質を高める「金音」の存在が報告されている。
本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:37Z) - Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise [19.422355461775343]
本研究では,構造付き潜時雑音サンプリングによる動画拡散モデルの構築を行う。
本稿では,ランダムな時空間のガウス性と相関した雑音を置き換え,リアルタイムに動作可能な新しいノイズワープアルゴリズムを提案する。
提案アルゴリズムの効率性により,ワープノイズを最小限のオーバーヘッドで使用することで,最新の映像拡散ベースモデルを微調整することができる。
論文 参考訳(メタデータ) (2025-01-14T18:59:10Z) - Not All Noises Are Created Equally:Diffusion Noise Selection and Optimization [23.795237240203456]
拡散モデルはランダムサンプリングされたガウス雑音から高品質なデータを生成することができる。
すべてのノイズが拡散モデルに対して等しく生成されるわけではない。
任意の雑音の反転を積極的に向上する新しい雑音最適化法を提案する。
論文 参考訳(メタデータ) (2024-07-19T05:36:22Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。
より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文 参考訳(メタデータ) (2020-03-17T10:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。