論文の概要: As Language Models Scale, Low-order Linear Depth Dynamics Emerge
- arxiv url: http://arxiv.org/abs/2603.12541v1
- Date: Fri, 13 Mar 2026 00:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.824926
- Title: As Language Models Scale, Low-order Linear Depth Dynamics Emerge
- Title(参考訳): 言語モデルによる低次線形深さダイナミクスの創発
- Authors: Buddhika Nettasinghe, Geethu Joseph,
- Abstract要約: 大きな言語モデルは高次元非線形システムと見なされ、ブラックボックスとして扱われることが多い。
我々は,変圧器の深度力学がコンテキスト内で正確な低次線形サロゲートを持つことを示す。
- 参考スコア(独自算出の注目度): 15.919212303210351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are often viewed as high-dimensional nonlinear systems and treated as black boxes. Here, we show that transformer depth dynamics admit accurate low-order linear surrogates within context. Across tasks including toxicity, irony, hate speech and sentiment, a 32-dimensional linear surrogate reproduces the layerwise sensitivity profile of GPT-2-large with near-perfect agreement, capturing how the final output shifts under additive injections at each layer. We then uncover a surprising scaling principle: for a fixed-order linear surrogate, agreement with the full model improves monotonically with model size across the GPT-2 family. This linear surrogate also enables principled multi-layer interventions that require less energy than standard heuristic schedules when applied to the full model. Together, our results reveal that as language models scale, low-order linear depth dynamics emerge within contexts, offering a systems-theoretic foundation for analyzing and controlling them.
- Abstract(参考訳): 大きな言語モデルは高次元非線形システムと見なされ、ブラックボックスとして扱われることが多い。
ここでは, 変圧器の深度力学がコンテキスト内において, 高精度な低次線形サロゲートを持つことを示す。
毒性, 皮肉, ヘイトスピーチ, 感情などを含むすべてのタスクにおいて, 32次元線形サロゲートはGPT-2大の層間感度プロファイルをほぼ完全一致で再現し, 各層での添加注入下での最終的な出力の変化を捉える。
固定階線形サロゲートの場合、フルモデルとの整合性は、GPT-2ファミリー全体のモデルサイズと単調に改善される。
この線形サロゲートはまた、全モデルに適用した場合の標準ヒューリスティックスケジュールよりも少ないエネルギーを必要とする、原則化された多層干渉を可能にする。
その結果,言語モデルがスケールするにつれて,文脈内に低次線形深度力学が出現し,解析と制御のためのシステム理論基盤が提供されることがわかった。
関連論文リスト
- Linearization Explains Fine-Tuning in Large Language Models [13.157568306905885]
我々は、微調整力学が正定ニューラルネットワークカーネル(NTK)を用いた学習と等価になることを示す。
線形化が良いモデルである場合には,NTKの固有値スペクトルとモデル適応性能との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2026-02-09T03:27:58Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。
特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。
本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文 参考訳(メタデータ) (2025-06-16T06:54:08Z) - Equivalent Linear Mappings of Large Language Models [0.5076419064097734]
我々は変換器の特性を利用して全ての演算を$A(x) cdot x$と表現し、$A(x)$は入力依存の線形変換を表し、$x$は線形経路を保存する。
この線形構造を公開するために、入力シーケンスに関して勾配の成分を戦略的に切り離し、推論中に計算された値で$A(x)$項を凍結する。
この分離されたヤコビアンは入力トークンごとに1つの線形作用素で出力を再構成し、これは Qwen 3 と Gemma 3 と Llama 3 に対して Qwen 3 14B まで示される。
論文 参考訳(メタデータ) (2025-05-30T07:08:33Z) - Weight-based Decomposition: A Case for Bilinear MLPs [0.0]
GLU(Gated Linear Units)は、現代の基礎モデルにおいて一般的なビルディングブロックとなっている。
Bilinear 層は "gate" の非線形性を低下させるが、他の GLU に匹敵する性能を持つ。
双線型テンソルを相互作用する固有ベクトルの集合に分解する手法を開発する。
論文 参考訳(メタデータ) (2024-06-06T10:46:51Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Layered Models can "Automatically" Regularize and Discover Low-Dimensional Structures via Feature Learning [6.109362130047454]
入力が線形変換を行い、次に非線形写像によって出力を予測する2層非パラメトリック回帰モデルについて検討する。
2層モデルが正規化を「自動的に」誘導し,特徴学習を容易にすることを示す。
論文 参考訳(メタデータ) (2023-10-18T06:15:35Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。