論文の概要: Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs
- arxiv url: http://arxiv.org/abs/2410.13835v2
- Date: Thu, 07 Nov 2024 16:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 00:48:45.418447
- Title: Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs
- Title(参考訳): アクティブDormantアテンションヘッド:LLMにおける極端Token現象の機械的デミステレーション
- Authors: Tianyu Guo, Druv Pai, Yu Bai, Jiantao Jiao, Michael I. Jordan, Song Mei,
- Abstract要約: 実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
- 参考スコア(独自算出の注目度): 77.66717051042032
- License:
- Abstract: Practitioners have consistently observed three puzzling phenomena in transformer-based large language models (LLMs): attention sinks, value-state drains, and residual-state peaks, collectively referred to as extreme-token phenomena. These phenomena are characterized by certain so-called "sink tokens" receiving disproportionately high attention weights, exhibiting significantly smaller value states, and having much larger residual-state norms than those of other tokens. These extreme tokens give rise to various challenges in LLM inference, quantization, and interpretability. We elucidate the mechanisms behind extreme-token phenomena. First, we show that these phenomena arise in very simple architectures -- transformers with one to three layers -- trained on a toy model, the Bigram-Backcopy (BB) task. In this setting, we identify an active-dormant mechanism, where attention heads become sinks for specific input domains while remaining non-sinks for others. Our theoretical analysis of the training dynamics reveals that these phenomena are driven by a mutual reinforcement mechanism. Building on these insights, we propose strategies to mitigate extreme-token phenomena during pretraining, including replacing softmax with ReLU and Adam with SGD. Next, we extend our analysis to pretrained LLMs, including Llama and OLMo, showing that many attention heads exhibit a similar active-dormant mechanism as in the BB task, and that the mutual reinforcement mechanism also governs the emergence of extreme-token phenomena during LLM pretraining. Our results reveal that many of the static and dynamic properties of extreme-token phenomena predicted by the BB task align with observations in pretrained LLMs.
- Abstract(参考訳): 専門家は変圧器をベースとした大規模言語モデル(LLM)において、常に3つのパズリング現象(注意シンク、値状態のドレイン、および極端トーケン現象と呼ばれる残留状態のピーク)を観察してきた。
これらの現象は、ある種の「シンクトークン」と呼ばれる、不均等に高い注意重みを受け、非常に小さな値状態を示し、他のトークンよりもはるかに大きな残留状態ノルムを持つのが特徴である。
これらの極端なトークンは、LLM推論、量子化、解釈可能性の様々な課題を引き起こす。
極端トーケン現象のメカニズムを解明する。
まず、これらの現象は、おもちゃのモデルであるBigram-Backcopy (BB)タスクに基づいて訓練された、非常に単純なアーキテクチャ、すなわち1層から3層のトランスフォーマーで発生することを示す。
そこで本研究では,特定の入力領域に対して注意頭がシンクし,他の領域に対して非シンクを継続する,アクティブ・ダマント機構を同定する。
トレーニング力学の理論解析により,これらの現象は相互強化機構によって引き起こされることが明らかとなった。
これらの知見に基づいて, ソフトマックスをReLU, アダムをSGDに置き換えるなど, プレトレーニング中の極端トーケン現象を緩和する戦略を提案する。
次に,Llama や OLMo などのプレトレーニング LLM に解析を拡張し,BB タスクと同様のアクティブ・ドーマント機構を示す注意頭が多数存在し,相互強化機構がLLM プレトレーニング中の極端トーケン現象の出現を制御していることを示した。
その結果,BBタスクによって予測される極端トーケン現象の静的および動的特性の多くは,予め訓練されたLLMの観測と一致していることがわかった。
関連論文リスト
- Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文 参考訳(メタデータ) (2024-07-17T08:21:06Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Entanglement Dynamics in Monitored Systems and the Role of Quantum Jumps [0.0]
決定論的非エルミート進化に対応する無クリック限界を超えるエンタングルメントダイナミクスに対する量子ジャンプの効果について検討する。
量子ジャンプが非エルミート力学を強く再正規化すると、ノクリック極限からの大きな偏差が生じることを示す。
論文 参考訳(メタデータ) (2023-12-20T20:44:18Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Scrambling and operator entanglement in local non-Hermitian quantum
systems [0.0]
我々は、パラダイム的局所量子スピンチェーンモデルの非エルミート変種における情報スクランブルと量子カオスについて研究する。
我々は、閉かつオープンな量子システムに関する以前の研究から、監視量子力学の新しい領域まで、演算子絡み合いに基づく診断を拡張した。
論文 参考訳(メタデータ) (2023-05-20T01:35:38Z) - Universality of critical dynamics with finite entanglement [68.8204255655161]
臨界近傍の量子系の低エネルギー力学が有限絡みによってどのように変化するかを研究する。
その結果、時間依存的臨界現象における絡み合いによる正確な役割が確立された。
論文 参考訳(メタデータ) (2023-01-23T19:23:54Z) - Strong coupling, weak impact: Phonon coupling versus pure dephasing in
the photon statistics of cooperative emitters [0.0]
本稿では,2光子同時計測により,より弱い劣化機構を光学活性量子ビットに対して得る方法を示す。
典型的に支配的な変形電位結合と長手音響フォノンに焦点をあてる。
驚くべきことに、強く結合されたフォノン環境の影響は弱く、長期間のコヒーレンスを引き起こす。
論文 参考訳(メタデータ) (2022-08-30T21:38:27Z) - Spreading of a local excitation in a Quantum Hierarchical Model [62.997667081978825]
常磁性相における量子ダイソン階層モデルのダイナミクスについて検討する。
地磁気場状態の局所励起による初期状態を考慮する。
局所化機構が発見され、励起は任意の時間で初期位置に近づいたままである。
論文 参考訳(メタデータ) (2022-07-14T10:05:20Z) - Realizing a dynamical topological phase in a trapped-ion quantum
simulator [0.0]
プログラム可能な量子シミュレーションのための新しいプラットフォームは、非平衡な量子多体力学の新しい状態に前例のないアクセスを提供する。
大規模なエラーに対して自己修正した量子エンタングルメントを作成し、保護し、操作する方法を示す。
我々の研究は、より複雑な動的トポロジカルな順序の実装の道を開いた。
論文 参考訳(メタデータ) (2021-07-20T18:00:00Z) - Subdiffusion via Disordered Quantum Walks [52.77024349608834]
本研究では、乱れた量子ウォークの有効性を実験的に証明し、一般的な散逸現象をモデル化できる量子シミュレータを実現する。
本実験は, 歩行の発達過程において, 各種障害を微調整し, その現象をシミュレートするものである。
これにより、異常なアンダーソン局在化から正規拡散まで、あらゆる部分拡散挙動を探索できる。
論文 参考訳(メタデータ) (2020-07-24T13:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。