論文の概要: Optical-Flow Guided Prompt Optimization for Coherent Video Generation
- arxiv url: http://arxiv.org/abs/2411.15540v1
- Date: Sat, 23 Nov 2024 12:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:37.232623
- Title: Optical-Flow Guided Prompt Optimization for Coherent Video Generation
- Title(参考訳): コヒーレントビデオ生成のための光流体誘導プロンプト最適化
- Authors: Hyelin Nam, Jaemin Kim, Dohun Lee, Jong Chul Ye,
- Abstract要約: 我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
- 参考スコア(独自算出の注目度): 51.430833518070145
- License:
- Abstract: While text-to-video diffusion models have made significant strides, many still face challenges in generating videos with temporal consistency. Within diffusion frameworks, guidance techniques have proven effective in enhancing output quality during inference; however, applying these methods to video diffusion models introduces additional complexity of handling computations across entire sequences. To address this, we propose a novel framework called MotionPrompt that guides the video generation process via optical flow. Specifically, we train a discriminator to distinguish optical flow between random pairs of frames from real videos and generated ones. Given that prompts can influence the entire video, we optimize learnable token embeddings during reverse sampling steps by using gradients from a trained discriminator applied to random frame pairs. This approach allows our method to generate visually coherent video sequences that closely reflect natural motion dynamics, without compromising the fidelity of the generated content. We demonstrate the effectiveness of our approach across various models.
- Abstract(参考訳): テキストからビデオへの拡散モデルは大きな進歩を遂げてきたが、多くの人は時間的一貫性のあるビデオを生成することの難しさに直面している。
拡散フレームワーク内では、推論中の出力品質向上に効果的なガイダンス技術が証明されているが、これらの手法をビデオ拡散モデルに適用することにより、シーケンス全体にわたる計算処理の複雑さが増す。
そこで本研究では,光フローによる映像生成プロセスのガイドを行うMotionPromptという新しいフレームワークを提案する。
具体的には、実ビデオと生成されたフレームのランダムな対の光の流れを識別するために、識別器を訓練する。
ビデオ全体に影響を与えるプロンプトを考慮し、ランダムフレーム対に適用した訓練された識別器の勾配を用いて、逆サンプリングステップ中の学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
様々なモデルにまたがるアプローチの有効性を実証する。
関連論文リスト
- Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Highly Detailed and Temporal Consistent Video Stylization via
Synchronized Multi-Frame Diffusion [22.33952368534147]
テキストガイド付きビデオ・ビデオ・スタイリングは、ソースビデオの視覚的な外観を、テキストプロンプトでガイドされた異なる外観に変換する。
既存のテキスト誘導画像拡散モデルは、スタイリングされたビデオ合成のために拡張することができる。
視覚的詳細と時間的整合性の両方を維持するための同期多フレーム拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-24T08:38:19Z) - Video ControlNet: Towards Temporally Consistent Synthetic-to-Real Video
Translation Using Conditional Image Diffusion Models [15.572275049552255]
長さの異なるビデオにおいて、時間的に一貫した合成-現実的ビデオ翻訳を実現するための効率的かつ効果的な手法を提案する。
提案手法は,市販の条件付き画像拡散モデルを利用して,複数の合成-実画像生成を並列に行うことができる。
論文 参考訳(メタデータ) (2023-05-30T16:39:00Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。