論文の概要: FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2603.09721v1
- Date: Tue, 10 Mar 2026 14:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.394105
- Title: FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation
- Title(参考訳): FrameDiT:効率的なビデオ生成のためのフレームレベル行列アテンション付き拡散変換器
- Authors: Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran,
- Abstract要約: マトリックス注意(Matrix Attention)は、フレーム全体をマトリックスとして処理するフレームレベルの時間的注意機構である。
我々は、Matrix Attention に基づく DiT アーキテクチャである FrameDiT-G を構築し、さらに、Matrix Attention と Local Factorized Attention を統合して、大小両方の動きをキャプチャする FrameDiT-H を導入する。
- 参考スコア(独自算出の注目度): 24.0898579088124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-fidelity video generation remains challenging for diffusion models due to the difficulty of modeling complex spatio-temporal dynamics efficiently. Recent video diffusion methods typically represent a video as a sequence of spatio-temporal tokens which can be modeled using Diffusion Transformers (DiTs). However, this approach faces a trade-off between the strong but expensive Full 3D Attention and the efficient but temporally limited Local Factorized Attention. To resolve this trade-off, we propose Matrix Attention, a frame-level temporal attention mechanism that processes an entire frame as a matrix and generates query, key, and value matrices via matrix-native operations. By attending across frames rather than tokens, Matrix Attention effectively preserves global spatio-temporal structure and adapts to significant motion. We build FrameDiT-G, a DiT architecture based on MatrixAttention, and further introduce FrameDiT-H, which integrates Matrix Attention with Local Factorized Attention to capture both large and small motion. Extensive experiments show that FrameDiT-H achieves state-of-the-art results across multiple video generation benchmarks, offering improved temporal coherence and video quality while maintaining efficiency comparable to Local Factorized Attention.
- Abstract(参考訳): 高忠実度ビデオ生成は、複雑な時空間力学を効率的にモデル化することが困難であるため、拡散モデルでは依然として困難である。
最近のビデオ拡散法は、ビデオを拡散変換器(DiT)を用いてモデル化できる時空間トークンの列として表すのが一般的である。
しかし、このアプローチは、強力だが高価なフル3D注意と、効率的だが時間的に制限された局所的要因意識とのトレードオフに直面している。
このトレードオフを解決するために,フレーム全体をマトリックスとして処理し,問合せ,キー,値行列を行列ネイティブ操作で生成するフレームレベルの時間的注意機構であるMatrix Attentionを提案する。
トークンではなくフレームを横切ることで、マトリックス注意はグローバルな時空間構造を効果的に保存し、大きな動きに適応する。
我々は、MatrixAttention に基づく DiT アーキテクチャである FrameDiT-G を構築し、さらに、Matrix Attention と Local Factorized Attention を統合して、大小両方の動きをキャプチャする FrameDiT-H を導入する。
大規模な実験により、FrameDiT-Hは複数のビデオ生成ベンチマークにまたがって最先端の結果を達成し、時間的コヒーレンスとビデオ品質を改善し、局所的要因の注意に匹敵する効率を維持した。
関連論文リスト
- VMonarch: Efficient Video Diffusion Transformers with Structured Attention [49.26162294859424]
その結果,ビデオDiTに現れる高度にスパースな時間的注意パターンは,モナール行列によって自然に表現できることが判明した。
動的スパースパターン上での効率的な最小化を実現するビデオDiTのための新しいアテンション機構であるVMonarchを提案する。
論文 参考訳(メタデータ) (2026-01-29T19:48:13Z) - MiVID: Multi-Strategic Self-Supervision for Video Frame Interpolation using Diffusion Model [2.9795035162522194]
この記事では、ビデオレンダリングのための軽量で自己監督型の拡散ベースのフレームワークであるMiVIDを紹介する。
本モデルでは,3次元U-Netバックボーンとトランスフォーマスタイルの時間的注意を組み合わせることで,明示的な動き推定の必要性を解消する。
この結果から,MiVIDは50エポックしか得られず,教師付きベースラインと競合することがわかった。
論文 参考訳(メタデータ) (2025-11-08T14:10:04Z) - Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation [21.87891961960399]
Compact Attentionは,3つのイノベーションを特徴とする,ハードウェア対応のアクセラレーションフレームワークだ。
単体GPUのセットアップに注意を向け,1.62.5倍の高速化を実現した。
この研究は、構造化された空間的利用を通じて効率的な長ビデオ生成を解放するための原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-08-18T14:45:42Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。