論文の概要: MatchDiffusion: Training-free Generation of Match-cuts
- arxiv url: http://arxiv.org/abs/2411.18677v1
- Date: Wed, 27 Nov 2024 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:02.593596
- Title: MatchDiffusion: Training-free Generation of Match-cuts
- Title(参考訳): MatchDiffusion: マッチカットのトレーニング不要生成
- Authors: Alejandro Pardo, Fabio Pizzati, Tong Zhang, Alexander Pondaven, Philip Torr, Juan Camilo Perez, Bernard Ghanem,
- Abstract要約: テキストとビデオの拡散モデルを用いたマッチカット生成のための,最初のトレーニング不要な手法を提案する。
MatchDiffusionは"Joint Diffusion"を使って、共有ノイズ、アライメント構造、動きの2つのプロンプトを生成する。
次に「分離拡散(Disjoint Diffusion)」を適用し、ビデオがバラバラになり、ユニークな詳細が紹介される。
- 参考スコア(独自算出の注目度): 122.3850234479588
- License:
- Abstract: Match-cuts are powerful cinematic tools that create seamless transitions between scenes, delivering strong visual and metaphorical connections. However, crafting match-cuts is a challenging, resource-intensive process requiring deliberate artistic planning. In MatchDiffusion, we present the first training-free method for match-cut generation using text-to-video diffusion models. MatchDiffusion leverages a key property of diffusion models: early denoising steps define the scene's broad structure, while later steps add details. Guided by this insight, MatchDiffusion employs "Joint Diffusion" to initialize generation for two prompts from shared noise, aligning structure and motion. It then applies "Disjoint Diffusion", allowing the videos to diverge and introduce unique details. This approach produces visually coherent videos suited for match-cuts. User studies and metrics demonstrate MatchDiffusion's effectiveness and potential to democratize match-cut creation.
- Abstract(参考訳): マッチカットは、シーン間のシームレスな遷移を生み出し、強力な視覚的および比喩的な接続を提供する強力な撮影ツールである。
しかし、マッチカットの作成は、故意に芸術的な計画を必要とする困難で資源集約的なプロセスである。
MatchDiffusionでは,テキスト・ビデオ拡散モデルを用いたマッチング・カット生成のための最初のトレーニング不要な手法を提案する。
MatchDiffusionは拡散モデルの重要な特性を活用している。
この知見に導かれて、MatchDiffusionは"Joint Diffusion"を使用して、共有ノイズ、整列構造、動きからの2つのプロンプトの生成を初期化する。
次に「分離拡散(Disjoint Diffusion)」を適用し、ビデオがバラバラになり、ユニークな詳細が紹介される。
このアプローチは、マッチカットに適した視覚的コヒーレントなビデオを生成する。
ユーザスタディとメトリクスは、MatchDiffusionの有効性と、マッチカット生成の民主化の可能性を示している。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Text-based Talking Video Editing with Cascaded Conditional Diffusion [31.194060914767896]
テキストベースのトーキングヘッドビデオ編集は、音声ビデオのセグメントを効率的に挿入、削除、置換することを目的としている。
これまでの作業では、会話ビデオのトレーニングデータの数分と、カスタマイズされた会話ビデオ編集のための高価なテストタイムの最適化が必要だった。
本稿では,音声から高密度ランドマーク運動,動画への動きの2段階からなる,効率的なケースケード条件拡散に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T10:55:19Z) - Contrastive Sequential-Diffusion Learning: Non-linear and Multi-Scene Instructional Video Synthesis [9.687215124767063]
本稿では,最も適切なシーンを選択して,次のシーンの復調過程をガイドし,条件付けするコントラッシブ・シーケンシャルな映像拡散手法を提案する。
実世界の行動中心データを用いた実験は、過去の研究と比較して、我々のモデルの実用性と一貫性を実証し、改善した。
論文 参考訳(メタデータ) (2024-07-16T15:03:05Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。