論文の概要: Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations
- arxiv url: http://arxiv.org/abs/2507.04705v1
- Date: Mon, 07 Jul 2025 06:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.302509
- Title: Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations
- Title(参考訳): 単純かつ効果的な時空間デカップリング表現による身元保存型テキスト・ビデオ生成
- Authors: Yuji Wang, Moran Li, Xiaobin Hu, Ran Yi, Jiangning Zhang, Han Feng, Weijian Cao, Yabiao Wang, Chengjie Wang, Lizhuang Ma,
- Abstract要約: アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.97034863216892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identity-preserving text-to-video (IPT2V) generation, which aims to create high-fidelity videos with consistent human identity, has become crucial for downstream applications. However, current end-to-end frameworks suffer a critical spatial-temporal trade-off: optimizing for spatially coherent layouts of key elements (e.g., character identity preservation) often compromises instruction-compliant temporal smoothness, while prioritizing dynamic realism risks disrupting the spatial coherence of visual structures. To tackle this issue, we propose a simple yet effective spatial-temporal decoupled framework that decomposes representations into spatial features for layouts and temporal features for motion dynamics. Specifically, our paper proposes a semantic prompt optimization mechanism and stage-wise decoupled generation paradigm. The former module decouples the prompt into spatial and temporal components. Aligned with the subsequent stage-wise decoupled approach, the spatial prompts guide the text-to-image (T2I) stage to generate coherent spatial features, while the temporal prompts direct the sequential image-to-video (I2V) stage to ensure motion consistency. Experimental results validate that our approach achieves excellent spatiotemporal consistency, demonstrating outstanding performance in identity preservation, text relevance, and video quality. By leveraging this simple yet robust mechanism, our algorithm secures the runner-up position in 2025 ACM MultiMedia Challenge.
- Abstract(参考訳): 人間のアイデンティティを一貫した高忠実度ビデオを作成することを目的としたIPT2V(Identity-preserving text-to-video)生成は、下流アプリケーションにとって重要になっている。
鍵要素の空間的コヒーレントなレイアウト(例えば、文字のアイデンティティ保存)の最適化は、しばしば命令に準拠した時間的滑らかさを損なうが、動的リアリズムの優先順位付けは、視覚構造の空間的コヒーレンスを損なう。
この問題に対処するために,表現をレイアウトのための空間的特徴と運動力学のための時間的特徴に分解する,シンプルで効果的な時空間分離フレームワークを提案する。
具体的には,セマンティック・プロンプトの最適化機構と段階的に分離された生成パラダイムを提案する。
前者のモジュールはプロンプトを空間的および時間的コンポーネントに分離する。
その後の段階的分離アプローチと並行して、空間的プロンプトはテキスト・ツー・イメージ(T2I)ステージを誘導してコヒーレントな空間的特徴を生成し、時間的プロンプトはシーケンシャルな画像・ビデオ(I2V)ステージを指示して動きの整合性を確保する。
実験の結果,提案手法は時空間整合性に優れ,アイデンティティ保存,テキスト関連性,映像品質に優れていた。
このシンプルで頑健なメカニズムを活用することで,2025 ACM MultiMedia Challenge におけるランナアップ位置を確保できる。
関連論文リスト
- STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Text2Story: Advancing Video Storytelling with Text Guidance [20.51001299249891]
本稿では,自然な行動遷移と構造化された物語を伴うシームレスなビデオ生成を実現するための,新しいストーリーテリング手法を提案する。
我々は,短いクリップと拡張ビデオのギャップを埋めて,テキストからGenAI駆動のビデオ合成の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。