論文の概要: A Refined Analysis of Massive Activations in LLMs
- arxiv url: http://arxiv.org/abs/2503.22329v1
- Date: Fri, 28 Mar 2025 11:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.665473
- Title: A Refined Analysis of Massive Activations in LLMs
- Title(参考訳): LLMにおける大量活性化の精製解析
- Authors: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra,
- Abstract要約: 幅広い大言語モデル(LLM)における大規模アクティベーションの分析を行う。
以上の結果から,(1) 大規模活性化がすべて有害である訳ではなく,(2) 意識的KVバイアスなどの緩和策がモデル固有かつ有効でない事例が示唆された。
- 参考スコア(独自算出の注目度): 0.3574867616159909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.
- Abstract(参考訳): 低精度トレーニングと量子化の関連性から、近年、大きな言語モデル(LLM)における大規模なアクティベーションが関心のトピックとして浮上している。
しかし、既存の分析範囲は限られており、アーキテクチャ間の一般化性は不明確である。
本稿では,GLUベースアーキテクチャと非GLUベースアーキテクチャの両方を含む,広い範囲のLLMにおける大規模アクティベーションの解析を行うことにより,これらのギャップに対処する上で有効である。
以上の結果から,(1) 大規模活性化がすべて有害である訳ではなく,(2) 意識的KVバイアスなどの緩和策がモデル固有であり, 有効でない場合が多いことが示唆された。
そこで本研究では,特にTVR(Target Variance Rescaling)と注意KVバイアスのペアリングや動的タン(DyT)を併用することで,大規模アクティベーションと下流モデル性能の保持とのバランスが取れた。
私たちのコードは、https://github.com/bluorion-com/refine_massive_activations.comで利用可能です。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。
本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文 参考訳(メタデータ) (2025-03-25T12:37:22Z) - U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack [9.760456105567078]
本稿では,Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)を体系的に比較する統一フレームワークであるU-NIAHを紹介する。
本フレームワークでは,複数のニードル,長いニードル,ニードルの設定を,異なる検索設定とともに組み込んでいる。
以上の結果から,RAGはロスト・イン・ザ・ミドル効果を緩和し,ロバスト性を向上させることにより,より小さなLCMを著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-01T05:05:24Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。
近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文 参考訳(メタデータ) (2024-10-04T16:05:14Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs [5.408684636210501]
ポストトレーニング量子化(PTQ)は、ウェイトとアクティベーションを定量化し、精度を下げる一般的なアプローチとなっている。
本稿では,現代の大規模言語モデルのフィードフォワードネットワーク(FFN)において広く利用されているGLU変種におけるアクティベーション量子化の課題について述べる。
本稿では,量子化時のアクティベーションスパイクを分離するために,量子化フリーモジュール(QFeM)と量子化フリープリフィックス(QFeP)の2つの経験的手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T10:54:14Z) - Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study [20.404448253054014]
言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性について検討した。
我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。
論文 参考訳(メタデータ) (2024-05-15T11:42:42Z) - Endogenous Macrodynamics in Algorithmic Recourse [52.87956177581998]
対実説明(CE)とアルゴリズム・リコース(AR)に関する既存の研究は、静的環境における個人に主に焦点を当ててきた。
既存の方法論の多くは、一般化されたフレームワークによってまとめて記述できることを示す。
次に、既存のフレームワークは、グループレベルでの言論の内在的ダイナミクスを研究する際にのみ明らかとなるような、隠された対外的関係のコストを考慮に入れていないと論じる。
論文 参考訳(メタデータ) (2023-08-16T07:36:58Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。