論文の概要: Massive Activations in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.17762v2
- Date: Wed, 14 Aug 2024 16:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 18:06:42.110689
- Title: Massive Activations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける大規模活性化
- Authors: Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu,
- Abstract要約: 様々な大規模言語モデル(LLM)にまたがる大規模アクティベーションの存在を示す。
大量活性化は、それに対応するトークンに対する注意確率の集中と、自己注意出力における暗黙のバイアス項をもたらす。
- 参考スコア(独自算出の注目度): 77.51561903918535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We observe an empirical phenomenon in Large Language Models (LLMs) -- very few activations exhibit significantly larger values than others (e.g., 100,000 times larger). We call them massive activations. First, we demonstrate the widespread existence of massive activations across various LLMs and characterize their locations. Second, we find their values largely stay constant regardless of the input, and they function as indispensable bias terms in LLMs. Third, these massive activations lead to the concentration of attention probabilities to their corresponding tokens, and further, implicit bias terms in the self-attention output. Last, we also study massive activations in Vision Transformers. Code is available at https://github.com/locuslab/massive-activations.
- Abstract(参考訳): 大規模言語モデル(LLM)では経験的な現象が観測されており、他のもの(例えば10万倍)よりもはるかに大きな値を示すアクティベーションはほとんどありません。
それらは大規模な活性化と呼ばれます。
まず,多種多様なLDMにまたがる大規模活性化の存在を実証し,その位置を特徴付ける。
第二に、それらの値は入力によらずほぼ一定であり、LLMでは必須のバイアス項として機能する。
第3に、これらの大きな活性化は、対応するトークンに対する注意確率の集中、さらに自己注意出力における暗黙のバイアス項をもたらす。
最後に、視覚変換器の大規模な活性化についても検討する。
コードはhttps://github.com/locuslab/massive-activationsで入手できる。
関連論文リスト
- Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。
これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。
大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文 参考訳(メタデータ) (2025-02-03T17:47:03Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価
既存のMLLMでは評価が困難でありながら,評価の容易化を図るために,視覚質問応答(VQA)の特殊な形式に着目する。
複数の画像を読み、理解する能力は、アクティブな知覚を可能にする上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-10-07T00:16:26Z) - Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。
近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文 参考訳(メタデータ) (2024-10-04T16:05:14Z) - Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。
現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。
我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文 参考訳(メタデータ) (2024-08-01T15:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。