論文の概要: Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search
- arxiv url: http://arxiv.org/abs/2501.19252v1
- Date: Fri, 31 Jan 2025 16:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:42.667832
- Title: Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search
- Title(参考訳): 拡散遅延ビームサーチを用いた推定時間テキスト・ビデオアライメント
- Authors: Yuta Oshima, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta,
- Abstract要約: アライメント問題に大きな注目を集めており、コンテンツの良さに基づいて拡散モデルの出力を操縦する。
本稿では,アライメント報酬を最大化するために,より優れた拡散潜時を選択できるルックアヘッド推定器を用いた拡散潜時ビーム探索を提案する。
本手法は,モデルパラメータを更新することなく,キャリブレーションされた報酬に基づいて知覚品質を向上させることを実証する。
- 参考スコア(独自算出の注目度): 23.3627657867351
- License:
- Abstract: The remarkable progress in text-to-video diffusion models enables photorealistic generations, although the contents of the generated video often include unnatural movement or deformation, reverse playback, and motionless scenes. Recently, an alignment problem has attracted huge attention, where we steer the output of diffusion models based on some quantity on the goodness of the content. Because there is a large room for improvement of perceptual quality along the frame direction, we should address which metrics we should optimize and how we can optimize them in the video generation. In this paper, we propose diffusion latent beam search with lookahead estimator, which can select better diffusion latent to maximize a given alignment reward, at inference time. We then point out that the improvement of perceptual video quality considering the alignment to prompts requires reward calibration by weighting existing metrics. When evaluating outputs by using vision language models as a proxy of humans, many previous metrics to quantify the naturalness of video do not always correlate with evaluation and also depend on the degree of dynamic descriptions in evaluation prompts. We demonstrate that our method improves the perceptual quality based on the calibrated reward, without model parameter update, and outputs the best generation compared to greedy search and best-of-N sampling. We provide practical guidelines on which axes, among search budget, lookahead steps for reward estimate, and denoising steps, in the reverse diffusion process, we should allocate the inference-time computation.
- Abstract(参考訳): テキストとビデオの拡散モデルの顕著な進歩は、フォトリアリスティックな世代を可能にするが、生成されたビデオの内容には、不自然な動きや変形、リバース再生、モーションレスシーンが含まれることが多い。
近年、アライメント問題に大きな注目が寄せられ、コンテンツの良さに基づいて拡散モデルの出力を考慮に入れている。
フレーム方向に沿って知覚品質を改善するための大きなスペースがあるので、どのメトリクスを最適化すべきか、ビデオ生成でどのように最適化できるかに対処する必要があります。
本稿では,アライメント報酬を最大化するために,より優れた拡散潜時を選択できるルックアヘッド推定器を用いた拡散潜時ビーム探索を提案する。
そこで我々は,プロンプトへのアライメントを考慮した映像品質の向上には,既存の指標を重み付けすることで報奨校正が必要であることを指摘した。
人間の代理として視覚言語モデルを用いてアウトプットを評価する場合、ビデオの自然性を定量化するための多くの過去の指標は、必ずしも評価と相関するものではなく、評価プロンプトにおける動的記述の度合いに依存する。
本手法は,モデルパラメータを更新することなく,キャリブレーションされた報酬に基づいて知覚品質を向上し,グリージー検索やベスト・オブ・Nサンプリングと比較して最高の世代を出力することを示した。
提案手法は,探索予算,報酬推定のためのルックアヘッドステップ,およびデノナイズステップにおいて,逆拡散過程において,推論時間計算を割り当てる実用的なガイドラインを提供する。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Self-Supervised Motion Magnification by Backpropagating Through Optical
Flow [16.80592879244362]
本稿では,映像中の微妙な動きを拡大する自己教師型手法を提案する。
我々は、その新しい光学フローが所望の量でスケールするようにビデオを操作する。
本稿では、生成した映像の光学的流れを推定し、与えられた拡大係数から逸脱した場合の距離をペナルティ化する損失関数を提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:51Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Video-ReTime: Learning Temporally Varying Speediness for Time Remapping [12.139222986297263]
我々は、自己スーパービジョンを介してニューラルネットワークをトレーニングし、ビデオ再生速度の変化を認識し、正確にローカライズする。
本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。
論文 参考訳(メタデータ) (2022-05-11T16:27:47Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z) - Capturing Video Frame Rate Variations via Entropic Differencing [63.749184706461826]
一般化ガウス分布モデルに基づく新しい統計エントロピー差分法を提案する。
提案手法は,最近提案されたLIVE-YT-HFRデータベースにおいて,主観的スコアと非常によく相関する。
論文 参考訳(メタデータ) (2020-06-19T22:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。