論文の概要: EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2504.06861v1
- Date: Wed, 09 Apr 2025 13:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:28.366742
- Title: EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation
- Title(参考訳): EIDT-V: モデル非依存・ゼロショット・学習自由テキスト・ビデオ生成のための拡散軌道の爆発的断面積
- Authors: Diljeet Jagpal, Xi Chen, Vinay P. Namboodiri,
- Abstract要約: ゼロショット、トレーニングなし、画像ベースのテキスト・ツー・ビデオ生成は、既存の画像ベースの拡散モデルを用いてビデオを生成することを目的とした新興分野である。
拡散軌道の交叉を用いて,潜在値のみを扱うモデルに依存しない手法を提案する。
文脈内で訓練されたLLMはコヒーレントなフレームワイドプロンプトを生成するために使用され、もう1つはフレーム間の差異を特定するために使用される。
提案手法は,多様な画像生成モデルを扱う場合,より柔軟でありながら,最先端の性能が向上する。
- 参考スコア(独自算出の注目度): 26.888320234592978
- License:
- Abstract: Zero-shot, training-free, image-based text-to-video generation is an emerging area that aims to generate videos using existing image-based diffusion models. Current methods in this space require specific architectural changes to image generation models, which limit their adaptability and scalability. In contrast to such methods, we provide a model-agnostic approach. We use intersections in diffusion trajectories, working only with the latent values. We could not obtain localized frame-wise coherence and diversity using only the intersection of trajectories. Thus, we instead use a grid-based approach. An in-context trained LLM is used to generate coherent frame-wise prompts; another is used to identify differences between frames. Based on these, we obtain a CLIP-based attention mask that controls the timing of switching the prompts for each grid cell. Earlier switching results in higher variance, while later switching results in more coherence. Therefore, our approach can ensure appropriate control between coherence and variance for the frames. Our approach results in state-of-the-art performance while being more flexible when working with diverse image-generation models. The empirical analysis using quantitative metrics and user studies confirms our model's superior temporal consistency, visual fidelity and user satisfaction, thus providing a novel way to obtain training-free, image-based text-to-video generation.
- Abstract(参考訳): ゼロショット、トレーニングなし、画像ベースのテキスト・ツー・ビデオ生成は、既存の画像ベースの拡散モデルを用いてビデオを生成することを目的とした新興分野である。
現在の手法では、画像生成モデルに特定のアーキテクチャ変更が必要であり、適応性とスケーラビリティが制限されている。
このような手法とは対照的に、モデルに依存しないアプローチを提供する。
我々は拡散軌道の交叉を使い、潜在値のみを扱う。
軌道の交叉のみを用いて,局所的なフレームワイド・コヒーレンスと多様性を得ることはできなかった。
したがって、グリッドベースのアプローチを使うのです。
文脈内で訓練されたLLMはコヒーレントなフレームワイドプロンプトを生成するために使用され、もう1つはフレーム間の差異を特定するために使用される。
これらに基づいて,各グリッドセルのプロンプトを切り替えるタイミングを制御するCLIPベースのアテンションマスクを得る。
以前のスイッチングはより分散し、後のスイッチングはよりコヒーレンスになる。
したがって,本手法はフレームのコヒーレンスと分散を適切に制御できる。
提案手法は,多様な画像生成モデルを扱う場合,より柔軟でありながら,最先端の性能が向上する。
定量的メトリクスとユーザスタディを用いた実証分析により、我々のモデルの優れた時間的一貫性、視覚的忠実度、ユーザ満足度が確認され、トレーニング不要な画像ベースのテキスト・ビデオ生成を実現する新しい方法が提供される。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。
また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文 参考訳(メタデータ) (2024-05-27T21:23:20Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。
挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文 参考訳(メタデータ) (2022-10-26T16:23:02Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign
Language Recognition [4.059599144668737]
連続手話認識(continuous sign language recognition)は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。
1次元畳み込みネットワーク(1D-CNN)を採用して、シーケンシャルフレームを時間的に融合させることが期待できる方法である。
本稿では,このタスクの時間的類似性を通じて局所的特徴を適応的に融合することを提案する。
論文 参考訳(メタデータ) (2021-07-27T12:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。