Fugu-MT 論文翻訳(概要): Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs

論文の概要: Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs

arxiv url: http://arxiv.org/abs/2410.13835v1
Date: Thu, 17 Oct 2024 17:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.098348
Title: Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs
Title（参考訳）: アクティブDormantアテンションヘッド:LLMにおける極端Token現象の機械的デミステレーション
Authors: Tianyu Guo, Druv Pai, Yu Bai, Jiantao Jiao, Michael I. Jordan, Song Mei,
Abstract要約: 実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。極端トーケン現象のメカニズムを解明する。
参考スコア（独自算出の注目度）: 77.66717051042032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Practitioners have consistently observed three puzzling phenomena in transformer-based large language models (LLMs): attention sinks, value-state drains, and residual-state peaks, collectively referred to as extreme-token phenomena. These phenomena are characterized by certain so-called "sink tokens" receiving disproportionately high attention weights, exhibiting significantly smaller value states, and having much larger residual-state norms than those of other tokens. These extreme tokens give rise to various challenges in LLM inference, quantization, and interpretability. We elucidate the mechanisms behind extreme-token phenomena. First, we show that these phenomena arise in very simple architectures -- transformers with one to three layers -- trained on a toy model, the Bigram-Backcopy (BB) task. In this setting, we identify an active-dormant mechanism, where attention heads become sinks for specific input domains while remaining non-sinks for others. Our theoretical analysis of the training dynamics reveals that these phenomena are driven by a mutual reinforcement mechanism. Building on these insights, we propose strategies to mitigate extreme-token phenomena during pretraining, including replacing softmax with ReLU and Adam with SGD. Next, we extend our analysis to pretrained LLMs, including Llama and OLMo, showing that many attention heads exhibit a similar active-dormant mechanism as in the BB task, and that the mutual reinforcement mechanism also governs the emergence of extreme-token phenomena during LLM pretraining. Our results reveal that many of the static and dynamic properties of extreme-token phenomena predicted by the BB task align with observations in pretrained LLMs.
Abstract（参考訳）: 専門家は変圧器をベースとした大規模言語モデル(LLM)において、常に3つのパズリング現象(注意シンク、値状態のドレイン、および極端トーケン現象と呼ばれる残留状態のピーク)を観察してきた。これらの現象は、ある種の「シンクトークン」と呼ばれる、不均等に高い注意重みを受け、非常に小さな値状態を示し、他のトークンよりもはるかに大きな残留状態ノルムを持つのが特徴である。これらの極端なトークンは、LLM推論、量子化、解釈可能性の様々な課題を引き起こす。極端トーケン現象のメカニズムを解明する。まず、これらの現象は、おもちゃのモデルであるBigram-Backcopy (BB)タスクに基づいて訓練された、非常に単純なアーキテクチャ、すなわち1層から3層のトランスフォーマーで発生することを示す。そこで本研究では,特定の入力領域に対して注意頭がシンクし,他の領域に対して非シンクを継続する,アクティブ・ダマント機構を同定する。トレーニング力学の理論解析により,これらの現象は相互強化機構によって引き起こされることが明らかとなった。これらの知見に基づいて, ソフトマックスをReLU, アダムをSGDに置き換えるなど, プレトレーニング中の極端トーケン現象を緩和する戦略を提案する。次に,Llama や OLMo などのプレトレーニング LLM に解析を拡張し,BB タスクと同様のアクティブ・ドーマント機構を示す注意頭が多数存在し,相互強化機構がLLM プレトレーニング中の極端トーケン現象の出現を制御していることを示した。その結果,BBタスクによって予測される極端トーケン現象の静的および動的特性の多くは,予め訓練されたLLMの観測と一致していることがわかった。

関連論文リスト

Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文参考訳（メタデータ） (2025-07-21T19:29:03Z)
Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文参考訳（メタデータ） (2025-06-04T00:55:01Z)
Mitigating Overthinking in Large Reasoning Models via Manifold Steering [32.666911833023526]
大規模推論モデル(LRMs)は、推論中に過剰思考として知られる現象を示す。低次元活性化多様体に操舵方向を優雅に投影する新しいアプローチであるマニフォールドステアリングを提案する。本手法は,数個の数式ベンチマークの精度を維持・改善しながら,出力トークンを最大71%削減する。
論文参考訳（メタデータ） (2025-05-28T14:39:26Z)
Liouvillean Spectral Transition in Noisy Quantum Many-Body Scars [11.834849388804832]
また, 着底強度が増大するにつれて, 自発な$mathbbPT$-対称性の破れが生じることを示す。顕著なことに、Rydberg 原子配列の XY スピンはしごや PXP モデルのようなプラットフォームでは、臨界劣化速度はシステムサイズに弱い依存しか示さない。
論文参考訳（メタデータ） (2025-04-16T17:55:02Z)
Enhancing Revivals Via Projective Measurements in a Quantum Scarred System [51.3422222472898]
量子多体散乱系は非定型的動的挙動を示し、熱化を回避し、周期的状態回復を特徴とする。パラメタティックPXPモデルのスカー部分空間の力学に及ぼす射影測定の影響について検討する。我々は、この現象の根底にある重要なメカニズムとして、量子スカーの自然な劣化に対抗して、測定誘起位相再同期を同定する。
論文参考訳（メタデータ） (2025-03-28T17:03:14Z)
Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:46:33Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
Systematic Outliers in Large Language Models [41.2150163753952]
外乱はLarge Language Models (LLM) で広く観測されている。 LLMの生成過程,根本原因,機能について詳細な解析を行った。
論文参考訳（メタデータ） (2025-02-10T12:54:17Z)
On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層アテンションにおける位置バイアスを解析するための新しいグラフ理論フレームワークを提案する。我々は,トークンが逐次位置に基づいてコンテキスト情報とどのように相互作用するかを定量化する。我々のフレームワークは、トランスにおける位置バイアスを理解するための原則的な基盤を提供する。
論文参考訳（メタデータ） (2025-02-04T02:53:07Z)
Attention Sinks and Outlier Features: A 'Catch, Tag, and Release' Mechanism for Embeddings [4.30907936718325]
大きな言語モデル(LLM)の2つの顕著な特徴は、大きなノーム(外部)機能の存在と、いくつかのトークンに非常に強く参加する傾向である。注意シンクは、例えば、トークンのシーケンスをキャッチし、共通の摂動を適用してキャプチャされたトークンをタグ付けし、トークンを残留ストリームに解放する。
論文参考訳（メタデータ） (2025-02-02T21:15:07Z)
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文参考訳（メタデータ） (2024-12-31T22:06:39Z)
Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文参考訳（メタデータ） (2024-07-17T08:21:06Z)
A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文参考訳（メタデータ） (2024-02-06T11:13:54Z)
Entanglement Dynamics in Monitored Systems and the Role of Quantum Jumps [0.0]
決定論的非エルミート進化に対応する無クリック限界を超えるエンタングルメントダイナミクスに対する量子ジャンプの効果について検討する。量子ジャンプが非エルミート力学を強く再正規化すると、ノクリック極限からの大きな偏差が生じることを示す。
論文参考訳（メタデータ） (2023-12-20T20:44:18Z)
Understanding Masked Autoencoders via Hierarchical Latent Variable Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。 MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文参考訳（メタデータ） (2023-06-08T03:00:10Z)
Scrambling and operator entanglement in local non-Hermitian quantum systems [0.0]
我々は、パラダイム的局所量子スピンチェーンモデルの非エルミート変種における情報スクランブルと量子カオスについて研究する。我々は、閉かつオープンな量子システムに関する以前の研究から、監視量子力学の新しい領域まで、演算子絡み合いに基づく診断を拡張した。
論文参考訳（メタデータ） (2023-05-20T01:35:38Z)
Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。 AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文参考訳（メタデータ） (2023-05-04T19:11:33Z)
Universality of critical dynamics with finite entanglement [68.8204255655161]
臨界近傍の量子系の低エネルギー力学が有限絡みによってどのように変化するかを研究する。その結果、時間依存的臨界現象における絡み合いによる正確な役割が確立された。
論文参考訳（メタデータ） (2023-01-23T19:23:54Z)
Strong coupling, weak impact: Phonon coupling versus pure dephasing in the photon statistics of cooperative emitters [0.0]
本稿では,2光子同時計測により,より弱い劣化機構を光学活性量子ビットに対して得る方法を示す。典型的に支配的な変形電位結合と長手音響フォノンに焦点をあてる。驚くべきことに、強く結合されたフォノン環境の影響は弱く、長期間のコヒーレンスを引き起こす。
論文参考訳（メタデータ） (2022-08-30T21:38:27Z)
Spreading of a local excitation in a Quantum Hierarchical Model [62.997667081978825]
常磁性相における量子ダイソン階層モデルのダイナミクスについて検討する。地磁気場状態の局所励起による初期状態を考慮する。局所化機構が発見され、励起は任意の時間で初期位置に近づいたままである。
論文参考訳（メタデータ） (2022-07-14T10:05:20Z)
Realizing a dynamical topological phase in a trapped-ion quantum simulator [0.0]
プログラム可能な量子シミュレーションのための新しいプラットフォームは、非平衡な量子多体力学の新しい状態に前例のないアクセスを提供する。大規模なエラーに対して自己修正した量子エンタングルメントを作成し、保護し、操作する方法を示す。我々の研究は、より複雑な動的トポロジカルな順序の実装の道を開いた。
論文参考訳（メタデータ） (2021-07-20T18:00:00Z)
Subdiffusion via Disordered Quantum Walks [52.77024349608834]
本研究では、乱れた量子ウォークの有効性を実験的に証明し、一般的な散逸現象をモデル化できる量子シミュレータを実現する。本実験は, 歩行の発達過程において, 各種障害を微調整し, その現象をシミュレートするものである。これにより、異常なアンダーソン局在化から正規拡散まで、あらゆる部分拡散挙動を探索できる。
論文参考訳（メタデータ） (2020-07-24T13:56:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。