論文の概要: RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models
- arxiv url: http://arxiv.org/abs/2506.15545v1
- Date: Wed, 18 Jun 2025 15:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.710698
- Title: RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models
- Title(参考訳): RATTENTION:局所的・局所的注意モデルにおける最小スライディングウィンドウサイズに向けて
- Authors: Bailin Wang, Chang Lan, Chong Wang, Ruoming Pang,
- Abstract要約: RATTENTIONは、特別な線形アテンション機構と統合された局所アテンションの変種である。
RATTENTIONは性能と効率のトレードオフが優れていることを示す。
特殊なカーネル実装とウィンドウサイズ削減により、RATTENTIONは既存の最先端アプローチに匹敵するトレーニング速度を維持している。
- 参考スコア(独自算出の注目度): 22.336203514583243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local-global attention models have recently emerged as compelling alternatives to standard Transformers, promising improvements in both training and inference efficiency. However, the crucial choice of window size presents a Pareto tradeoff: larger windows maintain performance akin to full attention but offer minimal efficiency gains in short-context scenarios, while smaller windows can lead to performance degradation. Current models, such as Gemma2 and Mistral, adopt conservative window sizes (e.g., 4096 out of an 8192 pretraining length) to preserve performance. This work investigates strategies to shift this Pareto frontier, enabling local-global models to achieve efficiency gains even in short-context regimes. Our core motivation is to address the intrinsic limitation of local attention -- its complete disregard for tokens outside the defined window. We explore RATTENTION, a variant of local attention integrated with a specialized linear attention mechanism designed to capture information from these out-of-window tokens. Pretraining experiments at the 3B and 12B scales demonstrate that RATTENTION achieves a superior Pareto tradeoff between performance and efficiency. As a sweet spot, RATTENTION with a window size of just 512 consistently matches the performance of full-attention models across diverse settings. Furthermore, the recurrent nature inherent in the linear attention component of RATTENTION contributes to enhanced long-context performance, as validated on the RULER benchmark. Crucially, these improvements do not compromise training efficiency; thanks to a specialized kernel implementation and the reduced window size, RATTENTION maintains training speeds comparable to existing state-of-the-art approaches.
- Abstract(参考訳): ローカル・グローバルなアテンションモデルは、トレーニングと推論効率の両方の改善を約束する標準トランスフォーマーに代わる魅力的な代替品として最近登場した。
しかし、ウィンドウサイズの重要な選択は、Paretoのトレードオフである: より大きなウィンドウは、完全な注意を払ってパフォーマンスを維持するが、短いコンテキストのシナリオでは、最小限の効率向上をもたらす。
Gemma2やMistralのような現在のモデルは、性能を維持するために保守的なウィンドウサイズ(例えば、8192の事前訓練期間のうち4096)を採用する。
本研究は,このパレートフロンティアをシフトする戦略について検討し,短文体制においても局所的な言語モデルによる効率向上を実現する。
私たちのコアモチベーションは、ローカルアテンションの本質的な制限に対処すること -- 定義されたウィンドウの外側のトークンを完全に無視することにあります。
RATTENTIONは局所的な注意の変種であり、窓外トークンから情報を取得するように設計された特別な線形注意機構と統合されている。
3Bおよび12Bスケールでのプレトレーニング実験は、RATTENTIONが性能と効率の優れたパレートトレードオフを達成することを示す。
スイートスポットとして、RATTENTIONのウィンドウサイズは512で、さまざまな設定でフルアテンションモデルのパフォーマンスと一貫して一致します。
さらに、RATTENTIONの線形注意成分に固有のリカレント特性は、RULERベンチマークで検証されるように、長コンテキスト性能の向上に寄与する。
特別なカーネル実装とウィンドウサイズの削減により、RATTENTIONは既存の最先端アプローチに匹敵するトレーニング速度を維持している。
関連論文リスト
- Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Attention Condensation via Sparsity Induced Regularized Training [0.0]
自己注意は、コンテキストウィンドウが拡大するにつれて、トランスフォーマーの推論時間を支配する。
我々は,大規模言語モデルにおける注意分散の理論的枠組みを拡張した。
カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
論文 参考訳(メタデータ) (2025-03-03T14:09:13Z) - FwNet-ECA: A Classification Model Enhancing Window Attention with Global Receptive Fields via Fourier Filtering Operations [6.125180322871157]
大域的注意機構に固有の過度な計算の問題を緩和するために,窓付き注意機構を導入した。
FwNet-ECAは、フーリエ変換と学習可能な重み行列を組み合わせ、画像のスペクトル特性を高める新しい手法である。
論文 参考訳(メタデータ) (2025-02-25T11:01:53Z) - Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
テキスト・画像拡散モデルにおける「右端」(BE)異常は、トレーニング画像の記憶に起因する。
本稿では,BEを既存のフレームワークに統合する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T02:16:01Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。