論文の概要: Equivalent Linear Mappings of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24293v3
- Date: Sat, 11 Oct 2025 04:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.725235
- Title: Equivalent Linear Mappings of Large Language Models
- Title(参考訳): 大規模言語モデルの等価線形写像
- Authors: James R. Golden,
- Abstract要約: 我々は変換器の特性を利用して全ての演算を$A(x) cdot x$と表現し、$A(x)$は入力依存の線形変換を表し、$x$は線形経路を保存する。
この線形構造を公開するために、入力シーケンスに関して勾配の成分を戦略的に切り離し、推論中に計算された値で$A(x)$項を凍結する。
この分離されたヤコビアンは入力トークンごとに1つの線形作用素で出力を再構成し、これは Qwen 3 と Gemma 3 と Llama 3 に対して Qwen 3 14B まで示される。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in transformer interpretability, an understanding of the computational mechanisms of large language models (LLMs) remains a fundamental challenge. Many approaches interpret a network's hidden representations but remain agnostic about how those representations are generated. We address this by mapping LLM inference for a given input sequence to an equivalent and interpretable linear system which reconstructs the predicted output embedding with relative error below $10^{-13}$ at double floating-point precision, requiring no additional model training. We exploit a property of transformers wherein every operation (gated activations, attention, and normalization) can be expressed as $A(x) \cdot x$, where $A(x)$ represents an input-dependent linear transform and $x$ preserves the linear pathway. To expose this linear structure, we strategically detach components of the gradient computation with respect to an input sequence, freezing the $A(x)$ terms at their values computed during inference, such that the Jacobian yields an equivalent linear mapping. This detached Jacobian of the model reconstructs the output with one linear operator per input token, which is shown for Qwen 3, Gemma 3 and Llama 3, up to Qwen 3 14B. These linear representations demonstrate that LLMs operate in extremely low-dimensional subspaces where the singular vectors can be decoded to interpretable semantic concepts. The computation for each intermediate output also has a linear equivalent, and we examine how the linear representations of individual layers and their attention and multilayer perceptron modules build predictions, and use these as steering operators to insert semantic concepts into unrelated text. Despite their global nonlinearity, LLMs can be interpreted through equivalent linear representations that reveal low-dimensional semantic structures in the next-token prediction process.
- Abstract(参考訳): 変圧器の解釈可能性の著しい進歩にもかかわらず、大規模言語モデル(LLM)の計算機構の理解は依然として根本的な課題である。
多くのアプローチは、ネットワークの隠された表現を解釈するが、それらの表現がどのように生成されるのかを知らないままである。
与えられた入力シーケンスに対するLLM推論を等価で解釈可能な線形システムにマッピングし,2点浮動小数点精度で相対誤差10^{-13}$以下の予測出力埋め込みを再構築し,追加のモデルトレーニングを必要としない。
我々は、全ての演算(ゲートアクティベーション、アテンション、正規化)を$A(x) \cdot x$と表現できる変換器の特性を利用して、$A(x)$は入力依存線形変換を表し、$x$は線形経路を保存する。
この線形構造を公開するために、我々は勾配計算の成分を入力列に対して戦略的に切り離し、推論中に計算された値で$A(x)$項を凍結し、ヤコビアンが等価な線形写像を得る。
このモデルの分離されたヤコビアンは入力トークンごとに1つの線形作用素で出力を再構成し、Qwen 3 と Gemma 3 と Llama 3 に対して Qwen 3 14B まで表示する。
これらの線形表現は、特異ベクトルを解釈可能な意味概念にデコードできる超低次元部分空間で LLM が動作することを示す。
各中間出力に対する計算は線形同値であり、各層とその注目度および多層パーセプトロンモジュールの線形表現がどのように予測を構築し、これらをステアリング演算子として利用して意味概念を無関係テキストに挿入するかを検討する。
グローバルな非線形性にもかかわらず、LLMは、次のトーケン予測過程において低次元の意味構造を示す等価線型表現を通して解釈することができる。
関連論文リスト
- Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - How can representation dimension dominate structurally pruned LLMs? [17.953689537875377]
プルーニングは、元のディープニューラルネットワークにサブネットワークが存在すると仮定する。
異なるサブネットワーク抽出によってモデル性能がどう変化するかは明らかでない。
論文 参考訳(メタデータ) (2025-03-06T12:28:59Z) - Large Language-Geometry Model: When LLM meets Equivariance [53.8505081745406]
本稿では,3次元物理システムを表現するための新しいフレームワークであるEquiLLMを提案する。
EquiLLMは分子動力学シミュレーション,ヒトの動作シミュレーション,抗体設計など,従来の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-16T14:50:49Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Transformer Block Coupling and its Correlation with Generalization in LLMs [3.007031501305338]
トークン埋め込みの軌跡をトランスフォーマーブロックを通過して解析し、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
我々は,多言語モデルにおけるtextbftransformer ブロックの結合現象を明らかにし,トークンと深さをまたいだ頂点特異ベクトルの結合を特徴とする。
さらに,これらの特性が学習中にどのように出現するかを考察し,結合の進行,線形性の向上,トークン軌道の層ワイド指数的成長を観察する。
論文 参考訳(メタデータ) (2024-07-10T16:30:27Z) - Weight-based Decomposition: A Case for Bilinear MLPs [0.0]
GLU(Gated Linear Units)は、現代の基礎モデルにおいて一般的なビルディングブロックとなっている。
Bilinear 層は "gate" の非線形性を低下させるが、他の GLU に匹敵する性能を持つ。
双線型テンソルを相互作用する固有ベクトルの集合に分解する手法を開発する。
論文 参考訳(メタデータ) (2024-06-06T10:46:51Z) - Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective [26.479602180023125]
LCSM(Linear Complexity Sequence Model)は、線形複雑性を伴う様々なシーケンスモデリング手法を単位とする。
これらのモデルのモデリングプロセスは、拡張、Oscillation、Shrinkの3つの異なるステージに区分する。
異なるステージ設定が言語モデリングおよび検索タスクに与える影響を分析する実験を行う。
論文 参考訳(メタデータ) (2024-05-27T17:38:55Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。