論文の概要: Why Inference in Large Models Becomes Decomposable After Training
- arxiv url: http://arxiv.org/abs/2601.15871v1
- Date: Thu, 22 Jan 2026 11:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.584732
- Title: Why Inference in Large Models Becomes Decomposable After Training
- Title(参考訳): 大規模モデルの推論がトレーニング後に分解可能な理由
- Authors: Jidong Jin,
- Abstract要約: 大規模モデルにおける勾配更新イベントは、高度に局所化され、選択的であることを示す。
結果として、後学習推論システムは構造的に一様ではなく、本質的に分解可能である。
この研究は、推論システムの訓練後、モデルに依存しない構造的ビューを確立し、構造化された並列推論を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inference in large-scale AI models is typically performed on dense parameter matrices, leading to inference cost and system complexity that scale unsustainably with model size. This limitation does not arise from insufficient model capacity, but from treating post-training inference systems as monolithic operators while ignoring internal structures formed during learning. We show that gradient update events in large models are highly localized and selective, leaving many parameter dependencies statistically indistinguishable from their initialization distribution after training. As a result, post-training inference systems are structurally non-uniform and inherently decomposable. Based on this observation, we introduce a post-training statistical criterion and a structural annealing procedure that removes unsupported dependencies and reveals stable, independent substructures. This work establishes a post-training, model-agnostic structural view of inference systems and enables structured, parallel inference without modifying model functionality or interfaces.
- Abstract(参考訳): 大規模AIモデルの推論は通常、密度の高いパラメータ行列上で行われ、推論コストと、モデルサイズとともに持続不可能にスケールするシステムの複雑さにつながる。
この制限は、モデル能力の不足から生じるものではなく、学習中に形成された内部構造を無視しながら、学習後の推論システムをモノリシック演算子として扱うことから生じる。
大規模モデルにおける勾配更新イベントは高度に局所化され、選択的であり、多くのパラメータ依存は訓練後の初期化分布と統計的に区別できない。
結果として、後学習推論システムは構造的に一様ではなく、本質的に分解可能である。
本研究は, 学習後の統計基準と, 不要な依存関係を除去し, 安定かつ独立なサブ構造を明らかにする構造アニール法を提案する。
この作業は、トレーニング後のモデルに依存しない推論システムの構造ビューを確立し、モデル機能やインターフェースを変更することなく、構造化された並列推論を可能にする。
関連論文リスト
- Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。
本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:08:02Z) - Learning Structural Causal Models from Ordering: Identifiable Flow Models [19.99352354910655]
本稿では,変数の可逆変換を部品的に再現するフローモデルを提案する。
本稿では,すべての因果メカニズムの同時学習を可能にする設計改善を提案する。
本手法は,既存の拡散法に比べて計算時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-12-13T04:25:56Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z) - Disentangling Identifiable Features from Noisy Data with Structured
Nonlinear ICA [4.340954888479091]
我々は、SNICA(Structured Independent Component Analysis)と呼ばれる原則的絡み合いのための新しい一般化可能なフレームワークを導入する。
我々の貢献は、非常に広い階層構造モデルに対する深層生成モデルの識別可能性理論を拡張することである。
我々は,未知分布の雑音の存在下でも,このフレームワークの識別可能性が維持可能であるという主要な結果を確立する。
論文 参考訳(メタデータ) (2021-06-17T15:56:57Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Structure by Architecture: Structured Representations without
Regularization [31.75200752252397]
生成モデルなどの下流タスクにオートエンコーダを用いた自己教師型表現学習の課題について検討する。
我々はアグレッシブな正規化を必要とせずに構造化表現を学習できる新しいオートエンコーダアーキテクチャを設計する。
これらのモデルが、生成、絡み合い、外挿を含む様々な下流タスクの結果を改善する表現をいかに学習するかを実証する。
論文 参考訳(メタデータ) (2020-06-14T04:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。