論文の概要: MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
- arxiv url: http://arxiv.org/abs/2510.18692v1
- Date: Tue, 21 Oct 2025 14:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.742069
- Title: MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
- Title(参考訳): MoGA: エンドツーエンドビデオ生成のための混合グループアテンション
- Authors: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao,
- Abstract要約: 本稿では、軽量で学習可能なトークンルータを用いて、ブロックワイズを使わずにトークンを正確にマッチングする、効率的なスパースアテンションであるMixture-of-Groups Attention(MoGA)を提案する。
カーネルフリーの方法として、MoGAはFlashAttentionやシーケンス並列性など、現代の注目スタックとシームレスに統合される。
MoGAをベースとして,24fpsで480pの動画を1秒単位で生成し,コンテクスト長は約580kの高速長ビデオ生成モデルを構築した。
- 参考スコア(独自算出の注目度): 33.66978702400867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
- Abstract(参考訳): Diffusion Transformers (DiTs) を用いたロングビデオ生成は、全注目とシーケンス長の2次スケーリングによってボトルネックとなる。
注意は非常に冗長であるため、出力はクエリキー対の小さなサブセットによって支配される。
既存のスパース法は、ブロックサイズによって精度と効率のトレードオフが制約されるブロックワイズ粗い推定に依存している。
本稿では、軽量で学習可能なトークンルータを用いて、ブロックワイズを使わずにトークンを正確にマッチングする、効率的なスパースアテンションであるMixture-of-Groups Attention(MoGA)を提案する。
セマンティック・アウェア・ルーティングにより、MoGAは効果的な長距離通信を可能にする。
カーネルフリーの方法として、MoGAはFlashAttentionやシーケンス並列性など、現代の注目スタックとシームレスに統合される。
MoGAをベースとして,24fpsで480pの動画を1秒単位で生成し,コンテクスト長は約580kの高速長ビデオ生成モデルを構築した。
様々なビデオ生成タスクに関する総合的な実験により,本手法の有効性が検証された。
関連論文リスト
- Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference [88.57742986765238]
Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。
実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
論文 参考訳(メタデータ) (2025-08-04T07:31:10Z) - FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文 参考訳(メタデータ) (2025-06-30T18:11:21Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - Memory-efficient Streaming VideoLLMs for Real-time Procedural Video Understanding [51.91097761028129]
本稿では,リアルタイム・プロシージャ・ビデオ理解のためのエンドツーエンドフレームワークであるProVideLLMを紹介する。
ProVideLLMは、2種類のトークンを格納するように構成されたマルチモーダルキャッシュを統合する。
ProVideLLMは、これらのトークンをマルチモーダルキャッシュにインターリーブすることで、メモリと計算のサブ線形スケーリングをビデオ長で保証します。
論文 参考訳(メタデータ) (2025-04-10T17:13:08Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Towards Chunk-Wise Generation for Long Videos [40.93693702874981]
我々は,自己回帰的チャンク・バイ・チャンク戦略を用いて,長時間のビデオ生成に関する調査を行う。
長大なビデオタスクにショート・イメージ・チャンク・トゥ・ビデオ・モデルを適用することで生じる一般的な問題に対処する。
論文 参考訳(メタデータ) (2024-11-27T16:13:26Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention [6.713196608291278]
本研究では,トランスフォーマーをベースとしたLarge Language Modelを,メモリと計算を境界とした無限に長い入力に拡張する効率的な手法を提案する。
提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。
論文 参考訳(メタデータ) (2024-04-10T16:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。