論文の概要: TS-Attn: Temporal-wise Separable Attention for Multi-Event Video Generation
- arxiv url: http://arxiv.org/abs/2604.19473v1
- Date: Tue, 21 Apr 2026 13:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.796011
- Title: TS-Attn: Temporal-wise Separable Attention for Multi-Event Video Generation
- Title(参考訳): TS-Attn:マルチイベントビデオ生成のための時間的に分離可能な注意
- Authors: Hongyu Zhang, Yufan Deng, Zilin Pan, Peng-Tao Jiang, Bo Li, Qibin Hou, Zhiyang Dou, Zhen Dong, Daquan Zhou,
- Abstract要約: テンポラルワイド分離注意機構(TS-Attn)を提案する。
TS-Attnは、マルチイベントシナリオにおける時間的認識とグローバルコヒーレンスを確保するために、アテンション分布を再構成する。
Wan2.1-T2V-14BとWan2.2-T2V-A14BではStoryEval-Benchのスコアが33.5%上昇し、16.4%上昇した。
- 参考スコア(独自算出の注目度): 61.27832169507143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality videos from complex temporal descriptions that contain multiple sequential actions is a key unsolved problem. Existing methods are constrained by an inherent trade-off: using multiple short prompts fed sequentially into the model improves action fidelity but compromises temporal consistency, while a single complex prompt preserves consistency at the cost of prompt-following capability. We attribute this problem to two primary causes: 1) temporal misalignment between video content and the prompt, and 2) conflicting attention coupling between motion-related visual objects and their associated text conditions. To address these challenges, we propose a novel, training-free attention mechanism, Temporal-wise Separable Attention (TS-Attn), which dynamically rearranges attention distribution to ensure temporal awareness and global coherence in multi-event scenarios. TS-Attn can be seamlessly integrated into various pre-trained text-to-video models, boosting StoryEval-Bench scores by 33.5% and 16.4% on Wan2.1-T2V-14B and Wan2.2-T2V-A14B with only a 2% increase in inference time. It also supports plug-and-play usage across models for multi-event image-to-video generation. The source code and project page are available at https://github.com/Hong-yu-Zhang/TS-Attn.
- Abstract(参考訳): 複数のシーケンシャルなアクションを含む複雑な時間的記述から高品質なビデオを生成することは、重要な未解決問題である。
モデルに順次入力された複数のショートプロンプトを使うことで、アクションの忠実さは向上するが、時間的一貫性を損なう。
我々はこの問題を2つの主な原因とみなす。
1)映像の内容とプロンプトの時間的ずれ
2) 動作関連視覚オブジェクトとその関連テキスト条件間の注意結合の矛盾。
これらの課題に対処するため,我々は,時間的意識とマルチイベントシナリオにおけるグローバルコヒーレンスを確保するために,動的に注意分布を再構成する,新たなトレーニング不要な注意機構であるTS-Attnを提案する。
TS-Attnは様々な事前訓練されたテキスト・ビデオモデルにシームレスに統合され、Wan2.1-T2V-14BとWan2.2-T2V-A14BでStoryEval-Benchスコアが33.5%、16.4%向上し、推論時間はわずか2%増加した。
また、マルチイベント・イメージ・ツー・ビデオ生成のためのモデル間でのプラグイン・アンド・プレイの使用もサポートしている。
ソースコードとプロジェクトページはhttps://github.com/Hong-yu-Zhang/TS-Attn.comで公開されている。
関連論文リスト
- Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation [40.694968116482315]
Inference-time, plug-and-play法であるPrompt Relayを提案する。
Prompt Relayは、各時間セグメントが割り当てられたプロンプトにのみ参加するように、クロスアテンションメカニズムにペナルティを導入する。
論文 参考訳(メタデータ) (2026-04-11T04:59:06Z) - SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls [21.71988638522276]
マルチイベントビデオ生成のためのトレーニングフリーフレームワークであるSwitchCraftについて紹介する。
SwitchCraftはフレームレベルの注意を、関連するイベントプロンプトと一致させる。
実験によると、SwitchCraftはプロンプトアライメント、イベントの明確性、シーンの一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-27T11:59:06Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - When and Where do Events Switch in Multi-Event Video Generation? [59.9025263656304]
イベントシフトにおける本質的要因の検査を省略する。
この研究は、マルチイベントテキスト・ツー・ビデオ(T2V)生成を評価するためのセルフキュレートプロンプトスイートであるMEveを紹介する。
論文 参考訳(メタデータ) (2025-10-03T14:31:56Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - Video Flow as Time Series: Discovering Temporal Consistency and Variability for VideoQA [41.61905821058282]
本稿では,時間的整合性と時間的変動をモデル化した新しいアーキテクチャであるT3Tを紹介する。
T3Tの有効性は、複数のVideoQAベンチマークデータセットの広範なテストを通じて実証される。
論文 参考訳(メタデータ) (2025-04-08T08:08:03Z) - VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z) - Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。
私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。
文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文 参考訳(メタデータ) (2024-12-06T18:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。