論文の概要: LatSearch: Latent Reward-Guided Search for Faster Inference-Time Scaling in Video Diffusion
- arxiv url: http://arxiv.org/abs/2603.14526v1
- Date: Sun, 15 Mar 2026 18:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.868373
- Title: LatSearch: Latent Reward-Guided Search for Faster Inference-Time Scaling in Video Diffusion
- Title(参考訳): LatSearch: ビデオ拡散における高速な推論時間スケーリングのための遅延リワードガイド検索
- Authors: Zengqun Zhao, Ziquan Liu, Yu Cao, Shaogang Gong, Zhensong Zhang, Jifei Song, Jiankang Deng, Ioannis Patras,
- Abstract要約: 本稿では,Reward-Guided Resampling and Pruningを実行する新しい推論時間探索機構を提案する。
LatSearchは、ベースラインのWan2.1モデルと比較して、複数の評価次元にわたるビデオ生成を一貫して改善する。
- 参考スコア(独自算出の注目度): 87.42285185305813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of inference-time scaling in large language models has inspired similar explorations in video diffusion. In particular, motivated by the existence of "golden noise" that enhances video quality, prior work has attempted to improve inference by optimising or searching for better initial noise. However, these approaches have notable limitations: they either rely on priors imposed at the beginning of noise sampling or on rewards evaluated only on the denoised and decoded videos. This leads to error accumulation, delayed and sparse reward signals, and prohibitive computational cost, which prevents the use of stronger search algorithms. Crucially, stronger search algorithms are precisely what could unlock substantial gains in controllability, sample efficiency and generation quality for video diffusion, provided their computational cost can be reduced. To fill in this gap, we enable efficient inference-time scaling for video diffusion through latent reward guidance, which provides intermediate, informative and efficient feedback along the denoising trajectory. We introduce a latent reward model that scores partially denoised latents at arbitrary timesteps with respect to visual quality, motion quality, and text alignment. Building on this model, we propose LatSearch, a novel inference-time search mechanism that performs Reward-Guided Resampling and Pruning (RGRP). In the resampling stage, candidates are sampled according to reward-normalised probabilities to reduce over-reliance on the reward model. In the pruning stage, applied at the final scheduled step, only the candidate with the highest cumulative reward is retained, improving both quality and efficiency. We evaluate LatSearch on the VBench-2.0 benchmark and demonstrate that it consistently improves video generation across multiple evaluation dimensions compared to the baseline Wan2.1 model.
- Abstract(参考訳): 近年の大規模言語モデルにおける推論時間スケーリングの成功は、ビデオ拡散における同様の探索にインスピレーションを与えている。
特に、映像品質を高める「金音」の存在に動機づけられた先行研究は、より優れた初期ノイズを最適化または探索することで推論を改善しようと試みている。
しかし、これらのアプローチには顕著な制限があり、ノイズサンプリングの開始時に課された事前や、復号化および復号化ビデオにのみ評価される報酬に依存する。
これにより、エラーの蓄積、遅延およびスパース報酬信号、計算コストの禁止が実現され、より強力な検索アルゴリズムの使用が防止される。
重要なことに、より強力な検索アルゴリズムは、その計算コストを削減できるならば、制御性、サンプル効率、ビデオ拡散の生成品質を大幅に向上させることができる。
このギャップを埋めるため、遅延報酬誘導による映像拡散の効率的な推論時間スケーリングを実現し、聴覚軌道に沿った中間的、情報的、効率的なフィードバックを提供する。
視覚的品質, 動作品質, テキストアライメントに関して, 任意のタイミングで部分的に認知された潜在者をスコアする潜在報酬モデルを導入する。
このモデルに基づいて,Reward-Guided Resampling and Pruning (RGRP) を実行する新しい推論時検索機構であるLatSearchを提案する。
再サンプリング段階では、報酬正規化確率に応じて候補をサンプリングし、報酬モデルに対する過度な信頼を減らす。
最終計画段階で適用される刈取段階では、最高累積報酬を有する候補のみが保持され、品質と効率が向上する。
我々は,VBench-2.0ベンチマークでLatSearchを評価し,ベースラインであるWan2.1モデルと比較して,複数の評価次元にわたる映像生成を一貫して改善することを示した。
関連論文リスト
- TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning [53.52543819839442]
テキスト・画像拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、複数のノイズシードの探索として問題を定式化する。
ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:14:26Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [41.45750971432533]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。
近年,映像の質を高める「金音」の存在が報告されている。
本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:37Z) - Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search [31.15452785332597]
アライメント問題に大きな注目を集めており、コンテンツの良さの指標に基づいて拡散モデルの出力を操縦する。
本稿では,アライメント報酬を最大化するために,より優れた拡散潜時を選択できるルックアヘッド推定器を用いた拡散潜時ビーム探索を提案する。
本手法は,モデルパラメータを更新することなく,校正報酬,VLM,人的評価に基づいて評価された知覚品質を向上することを示した。
論文 参考訳(メタデータ) (2025-01-31T16:09:30Z) - Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。
本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。
複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。
提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。