論文の概要: Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation
- arxiv url: http://arxiv.org/abs/2604.10030v1
- Date: Sat, 11 Apr 2026 04:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.800389
- Title: Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation
- Title(参考訳): Prompt Relay:マルチイベントビデオ生成のための推論時間時間時間制御
- Authors: Gordon Chen, Ziqi Huang, Ziwei Liu,
- Abstract要約: Inference-time, plug-and-play法であるPrompt Relayを提案する。
Prompt Relayは、各時間セグメントが割り当てられたプロンプトにのみ参加するように、クロスアテンションメカニズムにペナルティを導入する。
- 参考スコア(独自算出の注目度): 40.694968116482315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.
- Abstract(参考訳): ビデオ拡散モデルは高品質のビデオの生成において顕著な進歩を遂げた。
しかしながら、これらのモデルは、実世界のビデオにおける複数のイベントの時間的継承を表現するのに苦労し、セマンティックな概念がいつ現れるか、いつまで持続するか、そして複数のイベントが発生する順序を制御するための明確なメカニズムを欠いている。
このような制御は、コヒーレントなストーリーテリングがイベント間の正確なタイミング、時間、遷移に依存する映画レベルのビデオ合成において特に重要である。
複雑な出来事の列を記述するために単一の段落スタイルのプロンプトを使用する場合、モデルはしばしば意味的な絡み合いを示し、そこではビデオの異なる瞬間を意図した概念が互いに吹き込まれ、結果としてテキストとビデオのアライメントが低下する。
これらの制約に対処するために,マルチイベントビデオ生成における微粒な時間制御を実現するための,推論時プラグアンドプレイ方式であるPrompt Relayを提案する。
Prompt Relayは、相互注意機構にペナルティを導入し、各時間セグメントが割り当てられたプロンプトにのみ参加できるようにし、モデルが一度に1つのセマンティックな概念を表現できるようにし、時間的なプロンプトアライメントを改善し、セマンティックな干渉を低減し、視覚的品質を向上させる。
関連論文リスト
- SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls [21.71988638522276]
マルチイベントビデオ生成のためのトレーニングフリーフレームワークであるSwitchCraftについて紹介する。
SwitchCraftはフレームレベルの注意を、関連するイベントプロンプトと一致させる。
実験によると、SwitchCraftはプロンプトアライメント、イベントの明確性、シーンの一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-27T11:59:06Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。
本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。
動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。
私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。
文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文 参考訳(メタデータ) (2024-12-06T18:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。