論文の概要: TempoControl: Temporal Attention Guidance for Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2510.02226v1
- Date: Thu, 02 Oct 2025 17:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.242143
- Title: TempoControl: Temporal Attention Guidance for Text-to-Video Models
- Title(参考訳): TempoControl:テキスト・ビデオ・モデルのための時間的注意誘導
- Authors: Shira Schiber, Ofir Lindenbaum, Idan Schwartz,
- Abstract要約: 本研究では,推論中の視覚概念の時間的アライメントを可能にするTempoControlを紹介する。
本手法は,時間的形状と制御信号との整合性,可視性が必要な場所での増幅,空間的焦点の維持という3つの相補的原理を用いて注意を喚起する。
単一オブジェクトと複数オブジェクトの時間的並べ替え、アクションおよびオーディオアライメント生成など、様々なビデオ生成アプリケーションにおいて、その効果を実証する。
- 参考スコア(独自算出の注目度): 18.49685485536669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative video models have enabled the creation of high-quality videos based on natural language prompts. However, these models frequently lack fine-grained temporal control, meaning they do not allow users to specify when particular visual elements should appear within a generated sequence. In this work, we introduce TempoControl, a method that allows for temporal alignment of visual concepts during inference, without requiring retraining or additional supervision. TempoControl utilizes cross-attention maps, a key component of text-to-video diffusion models, to guide the timing of concepts through a novel optimization approach. Our method steers attention using three complementary principles: aligning its temporal shape with a control signal (via correlation), amplifying it where visibility is needed (via energy), and maintaining spatial focus (via entropy). TempoControl allows precise control over timing while ensuring high video quality and diversity. We demonstrate its effectiveness across various video generation applications, including temporal reordering for single and multiple objects, as well as action and audio-aligned generation.
- Abstract(参考訳): 生成ビデオモデルの最近の進歩は、自然言語のプロンプトに基づく高品質なビデオの作成を可能にしている。
しかし、これらのモデルはしばしば微粒な時間制御を欠いているため、ユーザが生成したシーケンス内に特定の視覚要素がいつ現れるかを指定することができない。
本研究では,推論中の視覚概念の時間的アライメントを可能にする手法であるTempoControlを紹介する。
TempoControlは、テキスト間拡散モデルのキーコンポーネントであるクロスアテンションマップを使用して、新しい最適化アプローチを通じて概念のタイミングをガイドする。
本手法は,3つの相補的原理を用いて,時間的形状を(相関による)制御信号に整合させ,(エネルギーによる)可視性が必要な場所で増幅し,(エントロピーによる)空間的焦点を維持する。
TempoControlは、高画質と多様性を確保しながら、タイミングを正確に制御する。
単一オブジェクトと複数オブジェクトの時間的並べ替え、アクションおよびオーディオアライメント生成など、様々なビデオ生成アプリケーションにおいて、その効果を実証する。
関連論文リスト
- Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。
私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。
文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文 参考訳(メタデータ) (2024-12-06T18:52:20Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。
具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-03T04:29:59Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。