論文の概要: Demystifying Singular Defects in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07004v1
- Date: Mon, 10 Feb 2025 20:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:18.565546
- Title: Demystifying Singular Defects in Large Language Models
- Title(参考訳): 大規模言語モデルにおける特異欠陥の除去
- Authors: Haoqi Wang, Tong Zhang, Mathieu Salzmann,
- Abstract要約: 大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
- 参考スコア(独自算出の注目度): 61.98878352956125
- License:
- Abstract: Large transformer models are known to produce high-norm tokens. In vision transformers (ViTs), such tokens have been mathematically modeled through the singular vectors of the linear approximations of layers. However, in large language models (LLMs), the underlying causes of high-norm tokens remain largely unexplored, and their different properties from those of ViTs require a new analysis framework. In this paper, we provide both theoretical insights and empirical validation across a range of recent models, leading to the following observations: i) The layer-wise singular direction predicts the abrupt explosion of token norms in LLMs. ii) The negative eigenvalues of a layer explain its sudden decay. iii) The computational pathways leading to high-norm tokens differ between initial and noninitial tokens. iv) High-norm tokens are triggered by the right leading singular vector of the matrix approximating the corresponding modules. We showcase two practical applications of these findings: the improvement of quantization schemes and the design of LLM signatures. Our findings not only advance the understanding of singular defects in LLMs but also open new avenues for their application. We expect that this work will stimulate further research into the internal mechanisms of LLMs and will therefore publicly release our code.
- Abstract(参考訳): 大規模なトランスモデルは、ハイノームトークンを生成することが知られている。
視覚変換器(ViT)では、そのようなトークンは層の線形近似の特異ベクトルを通して数学的にモデル化されている。
しかし、大きな言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままであり、ViTと異なる性質は新たな分析フレームワークを必要とする。
本稿では,近年のモデルにおける理論的洞察と実証的検証の両方を提供し,以下の結果を得た。
i) LLMにおけるトークンノルムの急激な爆発を予測する。
二 層の負の固有値がその突然の崩壊を説明すること。
三 高ノルムトークンにつながる計算経路は、初期トークンと初期トークンとで異なる。
iv) 高ノルムトークンは、対応するモジュールを近似する行列の右先頭特異ベクトルによってトリガーされる。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
LLMの特異な欠陥の理解を推し進めるだけでなく,その応用に向けて新たな道を開いた。
この研究は、LSMの内部メカニズムに関するさらなる研究を刺激し、コードを公開することを期待しています。
関連論文リスト
- Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Counting Ability of Large Language Models and Impact of Tokenization [17.53620419920189]
大規模言語モデル(LLM)の数え上げ能力に及ぼすトークン化の影響について検討する。
本研究は, LLMのカウント能力に及ぼすトークン化の影響について検討し, 入力トークン化差に基づく性能変化を明らかにする。
論文 参考訳(メタデータ) (2024-10-25T17:56:24Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - LLMs are Not Just Next Token Predictors [0.0]
LLMは、次のトークン予測目標を持つ勾配降下による言語学習の統計モデルである。
LLMは次のトークン予測を用いて設計され、このタスクの成功に基づいてトレーニングされていますが、次のトークン予測器への還元はLLMを短く販売する、というのが私たちの見解です。
これを引き出すため、遺伝子の観点から進化と発達を説明する生物学におけるかつての著名な研究プログラムと類似する。
論文 参考訳(メタデータ) (2024-08-06T16:36:28Z) - Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。
変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。
また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:14:44Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - The Predictive Normalized Maximum Likelihood for Over-parameterized
Linear Regression with Norm Constraint: Regret and Double Descent [12.929639356256928]
現代の機械学習モデルは、予測規則の複雑さとその一般化能力の間のトレードオフに従わないことを示す。
最近提案された予測正規化最大値 (pNML) は、個々のデータに対するmin-max後悔解である。
我々は,pNML後悔を合成データ上でのポイントワイド学習可能性尺度として使用し,二重発生現象の予測に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-14T15:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。