論文の概要: Garbage Attention in Large Language Models: BOS Sink Heads and Sink-aware Pruning
- arxiv url: http://arxiv.org/abs/2601.06787v1
- Date: Sun, 11 Jan 2026 06:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.985368
- Title: Garbage Attention in Large Language Models: BOS Sink Heads and Sink-aware Pruning
- Title(参考訳): 大規模言語モデルにおけるガベージアテンション:BOSシンクヘッドとシンクアウェアプルーニング
- Authors: Jaewon Sok, Jewon Yeom, Seonghyeon Park, Jeongjae Park, Taesup Kim,
- Abstract要約: BOSシンクスコアが高いアテンションヘッドは機能的冗長性に強く関連していることを示す。
我々は,高BOSシンクヘッドを除去する簡単なプルーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 9.412828452977553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are known to contain significant redundancy, yet a systematic explanation for why certain components, particularly in higher layers, are more redundant has remained elusive. In this work, we identify the BOS sink phenomenon as a key mechanism driving this layer-wise sensitivity. We show that attention heads with high BOS sink scores are strongly associated with functional redundancy: such heads, especially in deeper layers, contribute little to predictive performance and effectively serve as \emph{dumping grounds} for superfluous attention weights. This provides a concrete functional explanation for the structural redundancy reported in prior studies. Leveraging this insight, we introduce a simple pruning strategy that removes high-BOS sink heads. Experiments on Gemma-3, Llama-3.1, and Qwen3 demonstrate that this approach identifies redundant transformer components more reliably than weight- or activation-based criteria, while preserving performance close to dense baselines even under aggressive pruning. Moreover, we find that the behavior of sink heads remains stable across different sequence lengths. Overall, our results suggest that structural properties of attention offer a more intuitive and robust basis for model compression than magnitude-based methods.
- Abstract(参考訳): 大きな言語モデル(LLM)は、大きな冗長性を含むことが知られているが、なぜ特定のコンポーネント、特に高層において、より冗長であるのかは、体系的な説明である。
本研究では,BOSシンク現象を,この層間感度を駆動する重要なメカニズムとして同定する。
高いBOSシンクスコアを持つアテンションヘッドは機能的冗長性に強く結びついており、特に深い層では、予測性能にはほとんど寄与せず、過剰なアテンション重みに対する 'emph{dumping grounds} として効果的に機能する。
これは、以前の研究で報告された構造的冗長性に関する具体的な機能的説明を提供する。
この知見を生かして、高BOSシンクヘッドを除去する単純なプルーニング戦略を導入する。
Gemma-3、Llama-3.1、Qwen3の実験では、攻撃的プルーニング下でも高密度のベースラインに近い性能を維持しながら、ウェイト基準やアクティベーション基準よりも確実に冗長なトランスフォーマー成分を識別できることが示されている。
さらに,シンクヘッドの挙動は,異なるシーケンス長にわたって安定であることがわかった。
全体として,注意の構造的特性は,大域的な手法よりも直感的かつロバストなモデル圧縮の基盤となることが示唆された。
関連論文リスト
- On the Existence and Behaviour of Secondary Attention Sinks [21.79737660596527]
我々は,従来の研究で研究された流しと根本的に異なる二次流しという,注目流しの類を同定する。
主に中層に発生する二次的な沈み込みの存在は, 一定数の層に持続することができる。
大規模なモデルでは、シンクの位置と寿命はシンクレベルと呼ばれ、より決定論的かつ頻繁な方法で現れる。
論文 参考訳(メタデータ) (2025-12-22T09:06:43Z) - From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models [27.774067682004745]
GISP-Global Iterative Structured Pruningは、ブロックワイド正規化により、構造レベルで集約された1次、損失ベースの重要な重み付けを用いて、注目ヘッドとチャネルを除去する。
反復的なスケジュールは、ワンショットプルーニングではなく、高い間隔で精度を安定させ、中間微調整を必要とせず、パープレキシティの崩壊を緩和する。
重要度はモデルレベルの損失によって定義されるため、GISPはタスク固有の目的を自然にサポートしている。
論文 参考訳(メタデータ) (2025-10-20T19:04:09Z) - High-Layer Attention Pruning with Rescaling [14.141903038286362]
プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である
本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。
我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
論文 参考訳(メタデータ) (2025-07-02T17:15:05Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Pruning the Paradox: How CLIP's Most Informative Heads Enhance Performance While Amplifying Bias [20.85636816645017]
本稿では,CLIP様モデルにおける注意喚起のためのテキスト記述概念の整合性について検討する。
本稿では,新しい解釈可能性尺度である概念一貫性スコア(CCS)を提案する。
我々は,高いCCSヘッドが重要な概念を捕捉し,ドメイン外検出,概念固有の推論,ビデオ言語理解において重要な役割を担っていることを発見した。
論文 参考訳(メタデータ) (2025-03-14T05:47:17Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。