論文の概要: Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs
- arxiv url: http://arxiv.org/abs/2410.13835v2
- Date: Thu, 07 Nov 2024 16:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 00:48:45.418447
- Title: Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs
- Title(参考訳): アクティブDormantアテンションヘッド:LLMにおける極端Token現象の機械的デミステレーション
- Authors: Tianyu Guo, Druv Pai, Yu Bai, Jiantao Jiao, Michael I. Jordan, Song Mei,
- Abstract要約: 実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
- 参考スコア(独自算出の注目度): 77.66717051042032
- License:
- Abstract: Practitioners have consistently observed three puzzling phenomena in transformer-based large language models (LLMs): attention sinks, value-state drains, and residual-state peaks, collectively referred to as extreme-token phenomena. These phenomena are characterized by certain so-called "sink tokens" receiving disproportionately high attention weights, exhibiting significantly smaller value states, and having much larger residual-state norms than those of other tokens. These extreme tokens give rise to various challenges in LLM inference, quantization, and interpretability. We elucidate the mechanisms behind extreme-token phenomena. First, we show that these phenomena arise in very simple architectures -- transformers with one to three layers -- trained on a toy model, the Bigram-Backcopy (BB) task. In this setting, we identify an active-dormant mechanism, where attention heads become sinks for specific input domains while remaining non-sinks for others. Our theoretical analysis of the training dynamics reveals that these phenomena are driven by a mutual reinforcement mechanism. Building on these insights, we propose strategies to mitigate extreme-token phenomena during pretraining, including replacing softmax with ReLU and Adam with SGD. Next, we extend our analysis to pretrained LLMs, including Llama and OLMo, showing that many attention heads exhibit a similar active-dormant mechanism as in the BB task, and that the mutual reinforcement mechanism also governs the emergence of extreme-token phenomena during LLM pretraining. Our results reveal that many of the static and dynamic properties of extreme-token phenomena predicted by the BB task align with observations in pretrained LLMs.
- Abstract(参考訳): 専門家は変圧器をベースとした大規模言語モデル(LLM)において、常に3つのパズリング現象(注意シンク、値状態のドレイン、および極端トーケン現象と呼ばれる残留状態のピーク)を観察してきた。
これらの現象は、ある種の「シンクトークン」と呼ばれる、不均等に高い注意重みを受け、非常に小さな値状態を示し、他のトークンよりもはるかに大きな残留状態ノルムを持つのが特徴である。
これらの極端なトークンは、LLM推論、量子化、解釈可能性の様々な課題を引き起こす。
極端トーケン現象のメカニズムを解明する。
まず、これらの現象は、おもちゃのモデルであるBigram-Backcopy (BB)タスクに基づいて訓練された、非常に単純なアーキテクチャ、すなわち1層から3層のトランスフォーマーで発生することを示す。
そこで本研究では,特定の入力領域に対して注意頭がシンクし,他の領域に対して非シンクを継続する,アクティブ・ダマント機構を同定する。
トレーニング力学の理論解析により,これらの現象は相互強化機構によって引き起こされることが明らかとなった。
これらの知見に基づいて, ソフトマックスをReLU, アダムをSGDに置き換えるなど, プレトレーニング中の極端トーケン現象を緩和する戦略を提案する。
次に,Llama や OLMo などのプレトレーニング LLM に解析を拡張し,BB タスクと同様のアクティブ・ドーマント機構を示す注意頭が多数存在し,相互強化機構がLLM プレトレーニング中の極端トーケン現象の出現を制御していることを示した。
その結果,BBタスクによって予測される極端トーケン現象の静的および動的特性の多くは,予め訓練されたLLMの観測と一致していることがわかった。
関連論文リスト
- Systematic Outliers in Large Language Models [41.2150163753952]
外乱はLarge Language Models (LLM) で広く観測されている。
LLMの生成過程,根本原因,機能について詳細な解析を行った。
論文 参考訳(メタデータ) (2025-02-10T12:54:17Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層アテンションにおける位置バイアスを解析するための新しいグラフ理論フレームワークを提案する。
我々は,トークンが逐次位置に基づいてコンテキスト情報とどのように相互作用するかを定量化する。
我々のフレームワークは、トランスにおける位置バイアスを理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Attention Sinks and Outlier Features: A 'Catch, Tag, and Release' Mechanism for Embeddings [4.30907936718325]
大きな言語モデル(LLM)の2つの顕著な特徴は、大きなノーム(外部)機能の存在と、いくつかのトークンに非常に強く参加する傾向である。
注意シンクは、例えば、トークンのシーケンスをキャッチし、共通の摂動を適用してキャプチャされたトークンをタグ付けし、トークンを残留ストリームに解放する。
論文 参考訳(メタデータ) (2025-02-02T21:15:07Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Spreading of a local excitation in a Quantum Hierarchical Model [62.997667081978825]
常磁性相における量子ダイソン階層モデルのダイナミクスについて検討する。
地磁気場状態の局所励起による初期状態を考慮する。
局所化機構が発見され、励起は任意の時間で初期位置に近づいたままである。
論文 参考訳(メタデータ) (2022-07-14T10:05:20Z) - Realizing a dynamical topological phase in a trapped-ion quantum
simulator [0.0]
プログラム可能な量子シミュレーションのための新しいプラットフォームは、非平衡な量子多体力学の新しい状態に前例のないアクセスを提供する。
大規模なエラーに対して自己修正した量子エンタングルメントを作成し、保護し、操作する方法を示す。
我々の研究は、より複雑な動的トポロジカルな順序の実装の道を開いた。
論文 参考訳(メタデータ) (2021-07-20T18:00:00Z) - Subdiffusion via Disordered Quantum Walks [52.77024349608834]
本研究では、乱れた量子ウォークの有効性を実験的に証明し、一般的な散逸現象をモデル化できる量子シミュレータを実現する。
本実験は, 歩行の発達過程において, 各種障害を微調整し, その現象をシミュレートするものである。
これにより、異常なアンダーソン局在化から正規拡散まで、あらゆる部分拡散挙動を探索できる。
論文 参考訳(メタデータ) (2020-07-24T13:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。