論文の概要: FreqFormer: Hierarchical Frequency-Domain Attention with Adaptive Spectral Routing for Long-Sequence Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2604.22808v1
- Date: Tue, 14 Apr 2026 08:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.197974
- Title: FreqFormer: Hierarchical Frequency-Domain Attention with Adaptive Spectral Routing for Long-Sequence Video Diffusion Transformers
- Title(参考訳): FreqFormer:長周期ビデオ拡散変換器の適応スペクトルルーティングによる階層的周波数領域の注意
- Authors: Haopeng Jin,
- Abstract要約: 本稿ではFreqFormerについて紹介する。
トークンの特徴は、異なる演算子を持つスペクトルバンドに分割される。
FreqFormerは、推定アテンションFLOPとKV関連のメモリトラフィックを高密度アテンションに対して大幅に削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Long-sequence video diffusion transformers hit a quadratic self-attention cost that dominates runtime and memory for very long token sequences. Most efficient attention methods use one approximation everywhere, yet video features are spectrally structured: low frequencies carry global layout and coarse motion; high frequencies carry texture and fine detail. We present FreqFormer, a frequency-aware heterogeneous attention framework. Token features are split into spectral bands with different operators: dense global attention on compressed low-frequency content, structured block-sparse attention on mid frequencies, and sliding-window local attention on high frequencies. A lightweight spectral routing network allocates heads across bands using layer statistics and the diffusion timestep, shifting compute toward global structure early in denoising and detail later. Cross-band summary tokens provide cheap residual exchange. FreqFormer is paired with a fused GPU execution plan that co-schedules dense, sparse, and local branches to cut kernel launches and memory traffic. We give a consistent complexity model, an orthonormal-decomposition view of approximation, and simulation-based systems numbers (throughput, arithmetic intensity, memory traffic, duration scaling). In simulations from 64K to 1M tokens, FreqFormer substantially reduces estimated attention FLOPs and KV-related memory traffic versus dense attention while keeping a hardware-friendly pattern, supporting spectrally structured heterogeneous attention as a practical direction for long-video diffusion transformers.
- Abstract(参考訳): 長周期ビデオ拡散トランスフォーマーは、非常に長いトークンシーケンスのランタイムとメモリを支配している二次的な自己アテンションコストに到達した。
最も効率的な注意法は、至るところで1つの近似を用いるが、ビデオの特徴はスペクトル的に構造化されており、低周波はグローバルなレイアウトと粗い動きを持ち、高周波はテクスチャと細部を持っている。
本稿ではFreqFormerについて紹介する。
トークンの特徴は、圧縮された低周波コンテンツに対する大域的な注目度、中周波におけるブロックスパースな注意度、高周波に対するスライディングウインドウ局所的な注意度など、様々な演算子を持つスペクトル帯域に分けられる。
軽量なスペクトルルーティングネットワークは、層統計と拡散時間ステップを用いて、帯域をまたいだヘッドを割り当て、デノナイズと詳細の後に計算をグローバル構造へシフトする。
クロスバンドサマリトークンは、安価な残留交換を提供する。
FreqFormerは、高密度、スパース、ローカルブランチを共スケジューリングしてカーネルの起動とメモリトラフィックを削減する、融合GPU実行計画と組み合わせられている。
我々は、一貫した複雑性モデル、近似の正規正規分解ビュー、およびシミュレーションに基づくシステム番号(スループット、演算強度、メモリトラフィック、時間スケーリング)を提供する。
64Kから1Mトークンのシミュレーションにおいて、FreqFormerはハードウェアフレンドリーなパターンを維持しながら、FLOPとKV関連のメモリトラフィックと高密度な注意を著しく低減し、長ビデオ拡散トランスフォーマーの実用的な方向としてスペクトル構造の不均一な注意をサポートする。
関連論文リスト
- PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation [10.67983913373955]
F2Netは、UHR画像を特殊な処理のために高周波数成分と低周波数成分に分解する周波数認識フレームワークである。
ハイブリッド周波数融合モジュールは、2つの新しい目的によって導かれるこれらの観測を統合する。
F2Netは、それぞれ80.22のmIoUと83.39の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-09T15:09:49Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer [18.459822172890473]
骨格の周波数表現を除去するための周波数認識型アテンションモジュールを提案する。
また、周波数特徴を持つ空間特徴を組み込む混合変圧器アーキテクチャも開発している。
FreqMiXFormerは3つの一般的な骨格認識データセットでSOTAを上回っている。
論文 参考訳(メタデータ) (2024-07-17T05:47:27Z) - Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition [12.980843126905203]
周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
論文 参考訳(メタデータ) (2023-06-12T08:37:36Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。