Fugu-MT 論文翻訳(概要): SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

論文の概要: SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

arxiv url: http://arxiv.org/abs/2602.23956v1
Date: Fri, 27 Feb 2026 11:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.40684
Title: SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
Title（参考訳）: SwitchCraft: 注意制御によるトレーニング不要なマルチイベントビデオ生成
Authors: Qianxun Xu, Chenxi Song, Yujun Cai, Chi Zhang,
Abstract要約: マルチイベントビデオ生成のためのトレーニングフリーフレームワークであるSwitchCraftについて紹介する。 SwitchCraftはフレームレベルの注意を、関連するイベントプロンプトと一致させる。実験によると、SwitchCraftはプロンプトアライメント、イベントの明確性、シーンの一貫性を大幅に改善する。
参考スコア（独自算出の注目度）: 21.71988638522276
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in text-to-video diffusion models have enabled high-fidelity and temporally coherent videos synthesis. However, current models are predominantly optimized for single-event generation. When handling multi-event prompts, without explicit temporal grounding, such models often produce blended or collapsed scenes that break the intended narrative. To address this limitation, we present SwitchCraft, a training-free framework for multi-event video generation. Our key insight is that uniform prompt injection across time ignores the correspondence between events and frames. To this end, we introduce Event-Aligned Query Steering (EAQS), which steers frame-level attention to align with relevant event prompts. Furthermore, we propose Auto-Balance Strength Solver (ABSS), which adaptively balances steering strength to preserve temporal consistency and visual fidelity. Extensive experiments demonstrate that SwitchCraft substantially improves prompt alignment, event clarity, and scene consistency compared with existing baselines, offering a simple yet effective solution for multi-event video generation.
Abstract（参考訳）: 近年,テキスト・ビデオ拡散モデルの進歩により,高忠実度・時間的コヒーレントなビデオ合成が可能となった。しかし、現在のモデルは、主に単一イベント生成に最適化されている。マルチイベントプロンプトを扱う場合、明示的な時間的根拠がなければ、そのようなモデルは意図された物語を破るブレンドされた、あるいは崩壊したシーンをしばしば生み出す。この制限に対処するため,マルチイベントビデオ生成のためのトレーニングフリーフレームワークであるSwitchCraftを提案する。私たちの重要な洞察は、時間にわたって均一なプロンプトインジェクションがイベントとフレームの対応を無視していることです。この目的のために、イベントアラインドクエリステアリング(EAQS)を導入し、フレームレベルの注意を関連するイベントプロンプトに合わせる。さらに、時間的一貫性と視覚的忠実性を維持するために、ステアリング強度を適応的にバランスさせる自動バランス強度ソルバー(ABSS)を提案する。大規模な実験により、SwitchCraftは既存のベースラインと比較して、プロンプトアライメント、イベントの明確性、シーン一貫性を大幅に改善し、マルチイベントビデオ生成のためのシンプルで効果的なソリューションを提供する。

関連論文リスト

AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文参考訳（メタデータ） (2025-12-11T18:59:34Z)
EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models [56.16721798968254]
本研究では,EventSTUという,効率的な理解のためのイベント誘導学習自由フレームワークを提案する。時間領域において、不要な大フレームを除去するために、イベントカメラのトリガー特性を変化させる粗大なサンプリングアルゴリズムを設計する。空間領域では,イベントの正当性をゼロコストとして活用し,空間的縮小を誘導する適応的トークンプルーニングアルゴリズムを実現する。
論文参考訳（メタデータ） (2025-11-24T09:30:02Z)
When and Where do Events Switch in Multi-Event Video Generation? [59.9025263656304]
イベントシフトにおける本質的要因の検査を省略する。この研究は、マルチイベントテキスト・ツー・ビデオ(T2V)生成を評価するためのセルフキュレートプロンプトスイートであるMEveを紹介する。
論文参考訳（メタデータ） (2025-10-03T14:31:56Z)
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。 2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。 STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-20T09:16:20Z)
Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文参考訳（メタデータ） (2025-03-08T19:04:36Z)
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。 MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文参考訳（メタデータ） (2024-12-24T18:51:19Z)
Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文参考訳（メタデータ） (2024-12-06T18:52:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。