論文の概要: Massive Activations in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.17762v1
- Date: Tue, 27 Feb 2024 18:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 14:58:30.328188
- Title: Massive Activations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける大規模アクティベーション
- Authors: Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu
- Abstract要約: 様々な大規模言語モデル(LLM)にまたがる大規模アクティベーションの存在を示す。
大量活性化は、対応するトークンに対する注意確率の集中、さらに自己注意出力における暗黙のバイアス項をもたらす。
- 参考スコア(独自算出の注目度): 84.68024511620678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We observe an empirical phenomenon in Large Language Models (LLMs) -- very
few activations exhibit significantly larger values than others (e.g., 100,000
times larger). We call them massive activations. First, we demonstrate the
widespread existence of massive activations across various LLMs and
characterize their locations. Second, we find their values largely stay
constant regardless of the input, and they function as indispensable bias terms
in LLMs. Third, these massive activations lead to the concentration of
attention probabilities to their corresponding tokens, and further, implicit
bias terms in the self-attention output. Last, we also study massive
activations in Vision Transformers.
- Abstract(参考訳): 大規模言語モデル(LLM)における経験的現象を観察する -- 他よりもはるかに大きな値(例えば10万倍)を示すアクティベーションはほとんどない。
巨大なアクティベーションと呼んでいます
まず,様々なLSMにまたがる大規模活性化の存在を実証し,その位置を特徴付ける。
第二に、これらの値は入力に関係なくほぼ一定であり、LLMでは必須バイアス項として機能する。
第3に、これらの大きな活性化は、対応するトークンに対する注意確率の集中、さらに自己注意出力における暗黙のバイアス項をもたらす。
最後に、視覚トランスフォーマーの大規模なアクティベーションについても研究する。
関連論文リスト
- Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models [79.5116305401044]
セルフフィードバックは、特定のタスクにおいて大きな言語モデル(LLM)を改善し、他のタスクを悪化させる。
近年の研究では、自己フィードバックは特定のタスクにおいて大きな言語モデル(LLM)を改善する一方で、他のタスクを悪化させることが示されている。
本稿は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文 参考訳(メタデータ) (2023-06-22T14:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。