論文の概要: Steering Video Diffusion Transformers with Massive Activations
- arxiv url: http://arxiv.org/abs/2603.17825v1
- Date: Wed, 18 Mar 2026 15:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.781009
- Title: Steering Video Diffusion Transformers with Massive Activations
- Title(参考訳): 重み付きビデオ拡散変圧器のステアリング
- Authors: Xianhang Cheng, Yujian Zheng, Zhenyu Xie, Tingting Liao, Hao Li,
- Abstract要約: ビデオ拡散変圧器において, 希少かつ高次隠れ状態スパイクであるMassive Activations (MA) の役割について検討した。
本研究では,第1フレームにおけるMA値と境界トークンをスケールした大域的最大基準等級にステアリングする,トレーニング不要な自己誘導的手法であるStructured Activation Steering (STAS)を提案する。
- 参考スコア(独自算出の注目度): 12.331974574807488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress in video diffusion transformers, how their internal model signals can be leveraged with minimal overhead to enhance video generation quality remains underexplored. In this work, we study the role of Massive Activations (MAs), which are rare, high-magnitude hidden state spikes in video diffusion transformers. We observed that MAs emerge consistently across all visual tokens, with a clear magnitude hierarchy: first-frame tokens exhibit the largest MA magnitudes, latent-frame boundary tokens (the head and tail portions of each temporal chunk in the latent space) show elevated but slightly lower MA magnitudes than the first frame, and interior tokens within each latent frame remain elevated, yet are comparatively moderate in magnitude. This structured pattern suggests that the model implicitly prioritizes token positions aligned with the temporal chunking in the latent space. Based on this observation, we propose Structured Activation Steering (STAS), a training-free self-guidance-like method that steers MA values at first-frame and boundary tokens toward a scaled global maximum reference magnitude. STAS achieves consistent improvements in terms of video quality and temporal coherence across different text-to-video models, while introducing negligible computational overhead.
- Abstract(参考訳): ビデオ拡散変換器の急速な進歩にもかかわらず、内部のモデル信号が最小限のオーバーヘッドでどのように活用され、ビデオ生成の品質が向上するかは未定のままである。
本研究では,ビデオ拡散変圧器における高次隠れ状態スパイクであるMassive Activations(MA)の役割について検討する。
第一フレームトークンは最大のMA等級を示し、第二フレーム境界トークン(潜時空間における各時間チャンクの頭部と尾部)は、第一フレームよりも若干低いMA等級を示し、各潜時フレーム内の内部トークンは高いが、比較的中等度である。
この構造化パターンは、モデルが潜在空間における時間的チャンキングと一致したトークンの位置を暗黙的に優先順位付けしていることを示唆している。
本研究は,第1フレームにおけるMA値と境界トークンをスケールした大域的最大基準等級にステアリングする,トレーニング不要な自己指導的手法であるStructured Activation Steering (STAS)を提案する。
STASはビデオの品質と時間的コヒーレンスを異なるテキスト・ツー・ビデオモデルで一貫した改善を実現し、無視可能な計算オーバーヘッドを導入している。
関連論文リスト
- FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation [24.0898579088124]
マトリックス注意(Matrix Attention)は、フレーム全体をマトリックスとして処理するフレームレベルの時間的注意機構である。
我々は、Matrix Attention に基づく DiT アーキテクチャである FrameDiT-G を構築し、さらに、Matrix Attention と Local Factorized Attention を統合して、大小両方の動きをキャプチャする FrameDiT-H を導入する。
論文 参考訳(メタデータ) (2026-03-10T14:28:32Z) - Spatio-Temporal Attention for Consistent Video Semantic Segmentation in Automated Driving [0.46664938579243564]
マルチフレームコンテキストを組み込むためにトランスフォーマーアテンションブロックを拡張したApatio S-Temporal Attention (STA) 機構を提案する。
提案手法は,計算効率を保ちながら,プロセス時間的特徴系列に標準的自己アテンションを付加する。
CityscapesとBDD100kデータセットに関する包括的な評価は、時間的一貫性のメトリクスにおいて、9.20ポイントの大幅な改善を示している。
論文 参考訳(メタデータ) (2026-02-10T18:18:37Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - TBT-Former: Learning Temporal Boundary Distributions for Action Localization [1.2461503242570642]
時間的境界変換器 (TBT-Former) は時間的行動ローカライゼーションのための新しいアーキテクチャである。
GFL(Generalized Focal Loss)の原則にインスパイアされたこの新しいヘッドは、境界回帰の難しいタスクを、より柔軟な確率分布学習問題として再考する。
TBT-Formerは、競争力の高いTHUMOS14とEPIC-Kitchens 100データセットに新たなレベルのパフォーマンスを設定できる。
論文 参考訳(メタデータ) (2025-12-01T05:38:13Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。