論文の概要: ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos
- arxiv url: http://arxiv.org/abs/2503.16400v2
- Date: Thu, 27 Mar 2025 15:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:48:47.964175
- Title: ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos
- Title(参考訳): Scaling Noise: 無限ビデオ生成のための推論時間検索のスケーリング
- Authors: Haolin Yang, Feilong Tang, Ming Hu, Yulong Li, Yexin Liu, Zelin Peng, Junjun He, Zongyuan Ge, Imran Razzak,
- Abstract要約: ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。
近年,映像の質を高める「金音」の存在が報告されている。
本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
- 参考スコア(独自算出の注目度): 32.14142910911528
- License:
- Abstract: Video diffusion models (VDMs) facilitate the generation of high-quality videos, with current research predominantly concentrated on scaling efforts during training through improvements in data quality, computational resources, and model complexity. However, inference-time scaling has received less attention, with most approaches restricting models to a single generation attempt. Recent studies have uncovered the existence of "golden noises" that can enhance video quality during generation. Building on this, we find that guiding the scaling inference-time search of VDMs to identify better noise candidates not only evaluates the quality of the frames generated in the current step but also preserves the high-level object features by referencing the anchor frame from previous multi-chunks, thereby delivering long-term value. Our analysis reveals that diffusion models inherently possess flexible adjustments of computation by varying denoising steps, and even a one-step denoising approach, when guided by a reward signal, yields significant long-term benefits. Based on the observation, we proposeScalingNoise, a plug-and-play inference-time search strategy that identifies golden initial noises for the diffusion sampling process to improve global content consistency and visual diversity. Specifically, we perform one-step denoising to convert initial noises into a clip and subsequently evaluate its long-term value, leveraging a reward model anchored by previously generated content. Moreover, to preserve diversity, we sample candidates from a tilted noise distribution that up-weights promising noises. In this way, ScalingNoise significantly reduces noise-induced errors, ensuring more coherent and spatiotemporally consistent video generation. Extensive experiments on benchmark datasets demonstrate that the proposed ScalingNoise effectively improves long video generation.
- Abstract(参考訳): ビデオ拡散モデル(VDM)は高品質なビデオの生成を促進し、現在の研究はデータ品質、計算資源、モデル複雑さの改善を通じてトレーニング中のスケーリング作業に集中している。
しかし、推論時間のスケーリングはあまり注目されず、ほとんどのアプローチはモデルを単一世代の試みに制限している。
近年,映像の質を高める「金音」の存在が報告されている。
これに基づいて,VDMのスケーリング推定時間探索を導くことで,現在のステップで生成されたフレームの品質を評価するだけでなく,従来のマルチチャンクからアンカーフレームを参照して高レベルなオブジェクトの特徴を保ち,長期的価値を提供する。
解析の結果,拡散モデルには様々なデノナイジングステップによるフレキシブルな計算調整があり,報酬信号で導かれる場合の1ステップデノナイジングアプローチさえも,大きな長期的利益をもたらすことがわかった。
本研究は,拡散サンプリングプロセスにおける黄金の初期雑音を識別し,グローバルなコンテンツ一貫性と視覚的多様性を向上させるための,プラグアンドプレイの推論時間探索戦略であるScalingNoiseを提案する。
具体的には、初期ノイズをクリップに変換し、その後、その長期的価値を評価し、以前に生成されたコンテンツに固定された報酬モデルを活用する。
さらに,多様性を保ちつつ,騒音を重み付けする傾き雑音分布から候補をサンプリングする。
このように、ScalingNoiseはノイズによるエラーを著しく低減し、より一貫性と時空間的に一貫したビデオ生成を保証する。
ベンチマークデータセットの大規模な実験により、提案されたScalingNoiseは、長時間のビデオ生成を効果的に改善することを示した。
関連論文リスト
- Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion [22.988212617368095]
本稿では,長時間ビデオ生成のためのチューニング不要なGLC-Diffusionを提案する。
Global-Local Collaborative Denoisingを確立することで、長いビデオDenoisingプロセスをモデル化する。
また,ビデオモーション・コンシスタンス・リファインメント(VMCR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-01-08T05:49:39Z) - Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory [92.1714656167712]
本稿では,単一または複数プロンプトで生成されたビデオの一貫性とコヒーレンスを高めるため,時間的注意強調アルゴリズム(TiARA)を提案する。
本手法は拡散モデルにおける周波数に基づく手法の第一種である理論的保証によって支持される。
複数のプロンプトが生成するビデオについては、プロンプト品質に影響を及ぼす重要な要因をさらに調査し、プロンプトブレンド(PromptBlend)という高度なビデオプロンプトパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios [10.57695963534794]
VAEに基づく手法には、局所的なジッタとグローバルな不安定性の問題が伴う。
本稿では,音声制御信号を捕捉し,拡散段差と発声段差の多モーダル denoising 分布を暗黙的に一致させる条件付き GAN を提案する。
論文 参考訳(メタデータ) (2024-10-27T07:25:11Z) - Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy [44.09909260046396]
雑音発生過程における雑音予測のステップを削減するための適応拡散法を提案する。
提案手法は, 最大25倍の速度アップを達成し, 元の処理と同一の処理結果を生成するとともに, デノナイズ処理を著しく高速化することができる。
論文 参考訳(メタデータ) (2024-10-13T15:19:18Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Score-based Generative Models with Adaptive Momentum [40.84399531998246]
変換過程を高速化する適応運動量サンプリング法を提案する。
提案手法は,2倍から5倍の速度で,より忠実な画像/グラフを小さなサンプリングステップで作成できることを示す。
論文 参考訳(メタデータ) (2024-05-22T15:20:27Z) - MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection [15.72443573134312]
本研究では,ビデオから抽出した特徴ベクトルを,固定分布を持つランダム変数の実現として扱う。
我々は、デノナイジングスコアマッチングの修正を用いて、ビデオ異常検出装置を訓練する。
5つの人気ビデオ異常検出ベンチマーク実験により,最先端の性能が示された。
論文 参考訳(メタデータ) (2024-03-21T15:46:19Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。