論文の概要: Large Language Models are Locally Linear Mappings
- arxiv url: http://arxiv.org/abs/2505.24293v2
- Date: Wed, 04 Jun 2025 03:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.480573
- Title: Large Language Models are Locally Linear Mappings
- Title(参考訳): 大規模言語モデルは局所線形写像である
- Authors: James R. Golden,
- Abstract要約: オープンウェイトな大言語モデルの推論操作を、入力シーケンスに対して正確に等価な線形システムにマッピングする。
そのパワーと大域的非線形性にもかかわらず、現代のLSMは、ほぼ完全に局所的な線形分解によって解釈できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that the inference operations of several open-weight large language models (LLMs) can be mapped to an exactly equivalent linear system for an input sequence without modifying the model weights or altering output predictions. Extending techniques from image diffusion models that exhibit local or piecewise linearity, we strategically alter the gradient computation with respect to a given input sequence for a next-token prediction such that the Jacobian of the model nearly exactly reproduces the forward prediction with a linear system. We demonstrate this approach across models (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral and OLMo 2, up to Llama 3.3 70B Q4) and show through the singular value decomposition of the detached Jacobian that these LLMs operate in extremely low-dimensional subspaces where many of the largest singular vectors decode to concepts related to the most-likely output token. This approach also allows us to examine the operation of each successive layer (and its attention and MLP components) as nearly-exact linear systems and observe the emergence of semantic concepts. Despite their expressive power and global nonlinearity, modern LLMs can be interpreted through nearly-exact locally linear decompositions that provide insights into their internal representations and reveal interpretable semantic structures in the next-token prediction process.
- Abstract(参考訳): いくつかのオープンウェイト大言語モデル(LLM)の推論操作は、モデル重みを変更したり、出力予測を変更したりすることなく、入力シーケンスに対して正確に等価な線形システムにマッピング可能であることを実証する。
局所的あるいは断片的線形性を示す画像拡散モデルからの手法を拡張して, モデルのヤコビアンが線形系で前方予測をほぼ正確に再現するように, 与えられた入力シーケンスに対して勾配計算を戦略的に変更する。
モデル(Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral and OLMo 2)のこのアプローチをLlama 3.3 70B Q4まで示し、これらのLCMが極低次元部分空間で作用することを示す。
提案手法により, 逐次的レイヤ(および, 注目度, MLP コンポーネント)の動作を, ほぼ正確な線形システムとして検討し, 意味論的概念の出現を観察できる。
表現力と大域的非線形性にもかかわらず、現代のLLMは、その内部表現に関する洞察を与え、次のトーケン予想過程における解釈可能な意味構造を明らかにする、ほぼ正確な局所的な線形分解によって解釈することができる。
関連論文リスト
- How can representation dimension dominate structurally pruned LLMs? [17.953689537875377]
プルーニングは、元のディープニューラルネットワークにサブネットワークが存在すると仮定する。
異なるサブネットワーク抽出によってモデル性能がどう変化するかは明らかでない。
論文 参考訳(メタデータ) (2025-03-06T12:28:59Z) - Large Language-Geometry Model: When LLM meets Equivariance [53.8505081745406]
本稿では,3次元物理システムを表現するための新しいフレームワークであるEquiLLMを提案する。
EquiLLMは分子動力学シミュレーション,ヒトの動作シミュレーション,抗体設計など,従来の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-16T14:50:49Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Transformer Block Coupling and its Correlation with Generalization in LLMs [3.007031501305338]
トークン埋め込みの軌跡をトランスフォーマーブロックを通過して解析し、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
我々は,多言語モデルにおけるtextbftransformer ブロックの結合現象を明らかにし,トークンと深さをまたいだ頂点特異ベクトルの結合を特徴とする。
さらに,これらの特性が学習中にどのように出現するかを考察し,結合の進行,線形性の向上,トークン軌道の層ワイド指数的成長を観察する。
論文 参考訳(メタデータ) (2024-07-10T16:30:27Z) - Weight-based Decomposition: A Case for Bilinear MLPs [0.0]
GLU(Gated Linear Units)は、現代の基礎モデルにおいて一般的なビルディングブロックとなっている。
Bilinear 層は "gate" の非線形性を低下させるが、他の GLU に匹敵する性能を持つ。
双線型テンソルを相互作用する固有ベクトルの集合に分解する手法を開発する。
論文 参考訳(メタデータ) (2024-06-06T10:46:51Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。