Fugu-MT 論文翻訳(概要): Massive Activations in Large Language Models

論文の概要: Massive Activations in Large Language Models

arxiv url: http://arxiv.org/abs/2402.17762v1
Date: Tue, 27 Feb 2024 18:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 14:58:30.328188
Title: Massive Activations in Large Language Models
Title（参考訳）: 大規模言語モデルにおける大規模アクティベーション
Authors: Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu
Abstract要約: 様々な大規模言語モデル(LLM)にまたがる大規模アクティベーションの存在を示す。大量活性化は、対応するトークンに対する注意確率の集中、さらに自己注意出力における暗黙のバイアス項をもたらす。
参考スコア（独自算出の注目度）: 84.68024511620678
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We observe an empirical phenomenon in Large Language Models (LLMs) -- very few activations exhibit significantly larger values than others (e.g., 100,000 times larger). We call them massive activations. First, we demonstrate the widespread existence of massive activations across various LLMs and characterize their locations. Second, we find their values largely stay constant regardless of the input, and they function as indispensable bias terms in LLMs. Third, these massive activations lead to the concentration of attention probabilities to their corresponding tokens, and further, implicit bias terms in the self-attention output. Last, we also study massive activations in Vision Transformers.
Abstract（参考訳）: 大規模言語モデル(LLM)における経験的現象を観察する -- 他よりもはるかに大きな値(例えば10万倍)を示すアクティベーションはほとんどない。巨大なアクティベーションと呼んでいますまず,様々なLSMにまたがる大規模活性化の存在を実証し,その位置を特徴付ける。第二に、これらの値は入力に関係なくほぼ一定であり、LLMでは必須バイアス項として機能する。第3に、これらの大きな活性化は、対応するトークンに対する注意確率の集中、さらに自己注意出力における暗黙のバイアス項をもたらす。最後に、視覚トランスフォーマーの大規模なアクティベーションについても研究する。

関連論文リスト

MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activations [39.83216506924748]
拡散変換器(DiTs)は、非常に少数の特徴活性化が他のものよりもはるかに大きな値を示す重要な現象を示す。本研究では,Diffusion Transformer Feature (DiTF)を提案する。
論文参考訳（メタデータ） (2025-05-24T08:20:36Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。 PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文参考訳（メタデータ） (2024-11-04T17:59:04Z)
Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。極端トーケン現象のメカニズムを解明する。
論文参考訳（メタデータ） (2024-10-17T17:54:06Z)
ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価既存のMLLMでは評価が困難でありながら,評価の容易化を図るために,視覚質問応答(VQA)の特殊な形式に着目する。複数の画像を読み、理解する能力は、アクティブな知覚を可能にする上で重要な役割を担っている。
論文参考訳（メタデータ） (2024-10-07T00:16:26Z)
Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文参考訳（メタデータ） (2024-10-04T16:05:14Z)
Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文参考訳（メタデータ） (2024-08-01T15:05:42Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。