論文の概要: When and Where do Events Switch in Multi-Event Video Generation?
- arxiv url: http://arxiv.org/abs/2510.03049v1
- Date: Fri, 03 Oct 2025 14:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.423997
- Title: When and Where do Events Switch in Multi-Event Video Generation?
- Title(参考訳): イベント生成におけるイベントの切り換えはいつ, どこで行うのか?
- Authors: Ruotong Liao, Guowen Huang, Qing Cheng, Thomas Seidl, Daniel Cremers, Volker Tresp,
- Abstract要約: イベントシフトにおける本質的要因の検査を省略する。
この研究は、マルチイベントテキスト・ツー・ビデオ(T2V)生成を評価するためのセルフキュレートプロンプトスイートであるMEveを紹介する。
- 参考スコア(独自算出の注目度): 59.9025263656304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) generation has surged in response to challenging questions, especially when a long video must depict multiple sequential events with temporal coherence and controllable content. Existing methods that extend to multi-event generation omit an inspection of the intrinsic factor in event shifting. The paper aims to answer the central question: When and where multi-event prompts control event transition during T2V generation. This work introduces MEve, a self-curated prompt suite for evaluating multi-event text-to-video (T2V) generation, and conducts a systematic study of two representative model families, i.e., OpenSora and CogVideoX. Extensive experiments demonstrate the importance of early intervention in denoising steps and block-wise model layers, revealing the essential factor for multi-event video generation and highlighting the possibilities for multi-event conditioning in future models.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は、特に長いビデオが時間的コヒーレンスと制御可能なコンテンツを持つ複数のシーケンシャルなイベントを描写しなければならない場合、困難な問題に応答して急増している。
イベントシフトにおける本質的要因の検査を省略する。
本稿は,T2V生成時の制御イベント遷移を,マルチイベントがいつ,どこで促すかという,中心的な疑問に答えることを目的としている。
本稿では,マルチイベントテキスト・ツー・ビデオ(T2V)生成の評価を行うセルフキュレートプロンプトスイートであるMEveを紹介し,OpenSoraとCogVideoXという2つの代表的なモデルファミリの体系的研究を行う。
大規模な実験は、ステップやブロックワイズモデルレイヤーの早期介入の重要性を示し、マルチイベントビデオ生成に不可欠な要素を明らかにし、将来のモデルにおけるマルチイベントコンディショニングの可能性を強調している。
関連論文リスト
- DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。
私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。
文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文 参考訳(メタデータ) (2024-12-06T18:52:20Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。