論文の概要: Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2412.07750v2
- Date: Fri, 07 Mar 2025 18:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:15.159193
- Title: Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation
- Title(参考訳): クエリによる動作:テキスト・ビデオ・ジェネレーションにおけるアイデンティティ・モーション・トレードオフ
- Authors: Yuval Atzmon, Rinon Gal, Yoad Tewel, Yoni Kasten, Gal Chechik,
- Abstract要約: 本研究では,テキスト・ビデオ・モデルにおける自己注意クエリ機能がどのように動作,構造,アイデンティティを制御するかを検討する。
分析の結果,Qがレイアウトに影響を及ぼすだけでなく,Qをデノナイズする際にも主観的同一性に強い影響を及ぼすことが明らかとなった。
本研究では,(1)既存の手法より20倍効率の良いゼロショットモーショントランスファー法,(2)一貫したマルチショットビデオ生成のためのトレーニングフリー手法の2つの応用例を示す。
- 参考スコア(独自算出の注目度): 47.61288672890036
- License:
- Abstract: Text-to-video diffusion models have shown remarkable progress in generating coherent video clips from textual descriptions. However, the interplay between motion, structure, and identity representations in these models remains under-explored. Here, we investigate how self-attention query features (a.k.a. Q features) simultaneously govern motion, structure, and identity and examine the challenges arising when these representations interact. Our analysis reveals that Q affects not only layout, but that during denoising Q also has a strong effect on subject identity, making it hard to transfer motion without the side-effect of transferring identity. Understanding this dual role enabled us to control query feature injection (Q injection) and demonstrate two applications: (1) a zero-shot motion transfer method that is 20 times more efficient than existing approaches, and (2) a training-free technique for consistent multi-shot video generation, where characters maintain identity across multiple video shots while Q injection enhances motion fidelity.
- Abstract(参考訳): テキスト間拡散モデルは、テキスト記述からコヒーレントなビデオクリップを生成する際、顕著な進歩を見せている。
しかし、これらのモデルにおける運動、構造、同一性表現の相互作用はいまだ解明されていない。
本稿では, 自己注意クエリ機能(Q特徴)が, 動き, 構造, アイデンティティを同時に制御し, それらの表現が相互作用する際の課題について検討する。
分析の結果,Qがレイアウトに影響を及ぼすだけでなく,Qのデノナイズ時にも主観的同一性に強い影響があることが判明した。
このデュアルロールを理解することで,クエリ機能インジェクション(Qインジェクション)を制御し,(1)既存のアプローチの20倍の効率のゼロショットモーショントランスファー法,(2)マルチショットビデオ生成を一貫したトレーニングフリーな手法,(2)複数のビデオショットにおけるキャラクタの同一性を維持しつつ,Qインジェクションが動きの忠実性を高める,という2つの応用を実証することができる。
関連論文リスト
- SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文 参考訳(メタデータ) (2025-02-15T16:08:40Z) - VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation [48.318567065609216]
VAST(Video As Storyboard from Text)は、テキスト記述から高品質なビデオを生成するためのフレームワークである。
映像生成からテキスト理解を分離することにより、VASTは主題のダイナミクスやシーン構成を正確に制御できる。
VBenchベンチマークの実験では、VASTは視覚的品質とセマンティック表現の両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-21T15:59:07Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。