論文の概要: A Refined Analysis of Massive Activations in LLMs
- arxiv url: http://arxiv.org/abs/2503.22329v1
- Date: Fri, 28 Mar 2025 11:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:41.326483
- Title: A Refined Analysis of Massive Activations in LLMs
- Title(参考訳): LLMにおける大量活性化の精製解析
- Authors: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra,
- Abstract要約: 幅広い大言語モデル(LLM)における大規模アクティベーションの分析を行う。
以上の結果から,(1) 大規模活性化がすべて有害である訳ではなく,(2) 意識的KVバイアスなどの緩和策がモデル固有かつ有効でない事例が示唆された。
- 参考スコア(独自算出の注目度): 0.3574867616159909
- License:
- Abstract: Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.
- Abstract(参考訳): 低精度トレーニングと量子化の関連性から、近年、大きな言語モデル(LLM)における大規模なアクティベーションが関心のトピックとして浮上している。
しかし、既存の分析範囲は限られており、アーキテクチャ間の一般化性は不明確である。
本稿では,GLUベースアーキテクチャと非GLUベースアーキテクチャの両方を含む,広い範囲のLLMにおける大規模アクティベーションの解析を行うことにより,これらのギャップに対処する上で有効である。
以上の結果から,(1) 大規模活性化がすべて有害である訳ではなく,(2) 意識的KVバイアスなどの緩和策がモデル固有であり, 有効でない場合が多いことが示唆された。
そこで本研究では,特にTVR(Target Variance Rescaling)と注意KVバイアスのペアリングや動的タン(DyT)を併用することで,大規模アクティベーションと下流モデル性能の保持とのバランスが取れた。
私たちのコードは、https://github.com/bluorion-com/refine_massive_activations.comで利用可能です。
関連論文リスト
- OnionEval: An Unified Evaluation of Fact-conflicting Hallucination for Small-Large Language Models [6.727694415099734]
OnionEvalは、異なる文脈レベルにわたる小さなLLMの事実にかかわる幻覚傾向を評価するように設計されている。
その結果,SLLM の重要な特徴は,事実分析に優れ,文脈推論による課題に直面していることがわかった。
さらなる調査は、単純なChain-of-Thought戦略がこれらの制限を大幅に削減できることを示している。
論文 参考訳(メタデータ) (2025-01-22T15:59:44Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。
近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文 参考訳(メタデータ) (2024-10-04T16:05:14Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs [5.408684636210501]
ポストトレーニング量子化(PTQ)は、ウェイトとアクティベーションを定量化し、精度を下げる一般的なアプローチとなっている。
本稿では,現代の大規模言語モデルのフィードフォワードネットワーク(FFN)において広く利用されているGLU変種におけるアクティベーション量子化の課題について述べる。
本稿では,量子化時のアクティベーションスパイクを分離するために,量子化フリーモジュール(QFeM)と量子化フリープリフィックス(QFeP)の2つの経験的手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T10:54:14Z) - Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study [20.404448253054014]
言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性について検討した。
我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。
論文 参考訳(メタデータ) (2024-05-15T11:42:42Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - Endogenous Macrodynamics in Algorithmic Recourse [52.87956177581998]
対実説明(CE)とアルゴリズム・リコース(AR)に関する既存の研究は、静的環境における個人に主に焦点を当ててきた。
既存の方法論の多くは、一般化されたフレームワークによってまとめて記述できることを示す。
次に、既存のフレームワークは、グループレベルでの言論の内在的ダイナミクスを研究する際にのみ明らかとなるような、隠された対外的関係のコストを考慮に入れていないと論じる。
論文 参考訳(メタデータ) (2023-08-16T07:36:58Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - VRA: Variational Rectified Activation for Out-of-distribution Detection [45.804178022641764]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界で信頼性の高い機械学習システムを構築する上で重要である。
ReActはモデル過信に対処する典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増大させる。
本稿では,これらの抑制と増幅操作を一括関数を用いてシミュレートする「変分整定活性化(VRA)'」という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T00:45:14Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。