論文の概要: Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers
- arxiv url: http://arxiv.org/abs/2601.17367v1
- Date: Sat, 24 Jan 2026 08:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.693466
- Title: Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers
- Title(参考訳): 弾性アテンション:効率的な変圧器のためのテスト時間適応型スペーサ比
- Authors: Zecheng Tang, Quantong Qiu, Yi Yang, Zhiyi Hong, Haiya Xiang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang,
- Abstract要約: 本稿では,入力に基づいて全体空間を調整できるElastic Attentionを提案する。
8xA800 GPU上でのトレーニングをわずか12時間以内で行うと、モデルが強い性能と効率的な推論を達成できる。
- 参考スコア(独自算出の注目度): 42.80120203718226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of standard attention mechanisms poses a significant scalability bottleneck for large language models (LLMs) in long-context scenarios. While hybrid attention strategies that combine sparse and full attention within a single model offer a viable solution, they typically employ static computation ratios (i.e., fixed proportions of sparse versus full attention) and fail to adapt to the varying sparsity sensitivities of downstream tasks during inference. To address this issue, we propose Elastic Attention, which allows the model to dynamically adjust its overall sparsity based on the input. This is achieved by integrating a lightweight Attention Router into the existing pretrained model, which dynamically assigns each attention head to different computation modes. Within only 12 hours of training on 8xA800 GPUs, our method enables models to achieve both strong performance and efficient inference. Experiments across three long-context benchmarks on widely-used LLMs demonstrate the superiority of our method.
- Abstract(参考訳): 標準の注意機構の二次的な複雑さは、長期のコンテキストシナリオにおいて、大きな言語モデル(LLM)にとって大きなスケーラビリティのボトルネックとなる。
単一モデル内でスパースとフルアテンションを組み合わせたハイブリッドアテンション戦略は、実行可能なソリューションを提供するが、それらは通常静的な計算比(すなわち、スパースとフルアテンションの固定比率)を使用し、推論中に下流タスクの様々な空間感に適応できない。
この問題に対処するために,モデルが入力に基づいて全体空間を動的に調整できるElastic Attentionを提案する。
これは、軽量アテンションルータを既存の事前訓練モデルに統合し、各アテンションヘッドを異なる計算モードに動的に割り当てることによって達成される。
8xA800 GPU上でのトレーニングをわずか12時間以内で行うと、モデルが強い性能と効率的な推論を達成できる。
広範に使用されているLLM上での3つの長文ベンチマーク実験により,本手法の優位性を実証した。
関連論文リスト
- DyCAF-Net: Dynamic Class-Aware Fusion Network [0.0]
動的クラス・アウェア・フュージョン・ネットワーク(DyCAF-Net)について紹介する。
DyCAF-Netは13のベンチマークで精度、mAP@50、mAP@50-95を大幅に改善した。
分散のスケール、セマンティックオーバーラップ、およびクラス不均衡に対する適応性は、実世界の検出タスクの堅牢なソリューションとして位置づけられる。
論文 参考訳(メタデータ) (2025-08-05T16:06:26Z) - Trainable Dynamic Mask Sparse Attention [11.506985057671015]
トレーニング可能なダイナミックマスクスパースアテンション機構を導入し、位置認識とコンテンツ認識の両方のアプローチの利点を融合する手法を提案する。
導入したダイナミックマスクとスパースウェイトは勾配を阻害せず、エンドツーエンドのトレーニングを支援することを実証する。
論文 参考訳(メタデータ) (2025-08-04T07:05:15Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Balcony: A Lightweight Approach to Dynamic Inference of Generative Language Models [31.103832542711864]
Balconyは深度に基づく動的推論のためのフレームワークである。
完全なモデルの性能を維持しつつ、異なる計算予算へのリアルタイム適応を可能にしている。
注目すべきことに、BalconyはFlextronやLayerskipのような最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-03-06T22:09:55Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。