論文の概要: PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
- arxiv url: http://arxiv.org/abs/2512.04025v1
- Date: Wed, 03 Dec 2025 18:02:11 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:11.997523
- Title: PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
- Title(参考訳): PSA:効率的な映像理解・生成のためのピラミッドスパース注意
- Authors: Xiaolong Li, Youping Gu, Xi Lin, Weijie Wang, Bohan Zhuang,
- Abstract要約: 本稿では,映像理解と生成の両方に応用可能な汎用モジュールであるPraamid Sparse Attention (PSA)を提案する。
バイナリマスクの代わりに、PSAはマルチレベルプールされたKV表現を導入し、より微細なマスクの粒度を実現した。
この設計は、コンピュータビジョンにおける固定点量子化や古典的特徴ピラミッドネットワークに似ているが、計算効率を低く保ちながら、情報損失を効果的に軽減する。
- 参考スコア(独自算出の注目度): 34.8993443618652
- License:
- Abstract: Attention mechanisms are the core of foundation models, but their quadratic complexity remains a critical bottleneck for scaling. This challenge has driven the development of efficient attention mechanisms, with sparsity emerging as the dominant paradigm. Current methods typically retain or discard entire key-value blocks with binary masks, resulting in substantial information loss under high sparsity. To mitigate this gap, we present Pyramid Sparse Attention (PSA), a versatile module applicable to both video understanding and generation tasks. Instead of binary masking, PSA introduces multi-level pooled KV representations, enabling finer mask granularity. Specifically, each query block dynamically allocates lower pooling levels to critical KV blocks and higher levels to less important ones, creating an informative interpolation between full retention and complete pruning. This design, analogous to fixed-point quantization and classical feature pyramid networks in computer vision, effectively mitigates information loss while preserving computational efficiency under a low compute budget. It works with a native, hardware-friendly kernel that leverages decoupled block-tile design to ensure efficient execution. Across video understanding and generation benchmarks, PSA preserves contextual information and visual fidelity, consistently outperforming or achieving comparable performance over existing sparse attention baselines with superior efficiency-quality trade-offs. Our code and model weights are publicly available at: http://ziplab.co/PSA
- Abstract(参考訳): 注意機構は基礎モデルのコアであるが、その二次的な複雑さはスケーリングにとって重要なボトルネックである。
この課題は、スパシティが支配的なパラダイムとして出現する、効率的な注意機構の開発を促した。
現在の手法では、通常、鍵値ブロック全体をバイナリマスクで保持または破棄する。
このギャップを軽減するために、ビデオ理解と生成の両方に応用可能な汎用モジュールであるPraamid Sparse Attention (PSA)を提案する。
バイナリマスクの代わりに、PSAはマルチレベルプールされたKV表現を導入し、より微細なマスクの粒度を実現した。
具体的には、各クエリブロックは、低いプールレベルをクリティカルなKVブロックに、より高いレベルをより重要でないブロックに動的に割り当て、完全な保持と完全なプルーニングの間に情報的補間を生成する。
この設計は、コンピュータビジョンにおける固定点量子化や古典的特徴ピラミッドネットワークに似ているが、計算効率を低く保ちながら、情報損失を効果的に軽減する。
ネイティブなハードウェアフレンドリーなカーネルで動作し、分離されたブロックタイル設計を活用して効率的な実行を保証する。
ビデオの理解と生成のベンチマーク全体を通じて、PSAは文脈情報と視覚的忠実さを保ち、より優れた効率品質のトレードオフを持つ既存のスパースアテンションベースラインよりも一貫してパフォーマンスを向上または達成している。
私たちのコードとモデルの重み付けは、http://ziplab.co/PSAで公開されています。
関連論文リスト
- Trainable Dynamic Mask Sparse Attention [11.506985057671015]
トレーニング可能なダイナミックマスクスパースアテンション機構を導入し、位置認識とコンテンツ認識の両方のアプローチの利点を融合する手法を提案する。
導入したダイナミックマスクとスパースウェイトは勾配を阻害せず、エンドツーエンドのトレーニングを支援することを実証する。
論文 参考訳(メタデータ) (2025-08-04T07:05:15Z) - DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration [12.172968576254469]
本稿では,アダプティブマスクをアダプティブマップレベルで割り当てる動的スパースアテンション機構を提案する。
コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高アライメントを実現し、パフォーマンスの低下を最小限に抑える。
このアプローチは、大規模言語モデルの実践的な展開を可能にする、フルアテンションに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-06-06T20:24:36Z) - XAttention: Block Sparse Attention with Antidiagonal Scoring [10.517760961650279]
LCTM(Long-context Transformer Models)は、現実世界のアプリケーションには不可欠であるが、注意の2次複雑さのために計算コストが高い。
本稿では,Sparse attention を用いてトランスフォーマーモデルにおける長文推論を劇的に高速化するプラグイン・アンド・プレイフレームワーク XAttention を紹介する。
論文 参考訳(メタデータ) (2025-03-20T17:59:58Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [47.7036344302777]
現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。
本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。