論文の概要: Gradient Descent as Implicit EM in Distance-Based Neural Models
- arxiv url: http://arxiv.org/abs/2512.24780v1
- Date: Wed, 31 Dec 2025 10:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.628942
- Title: Gradient Descent as Implicit EM in Distance-Based Neural Models
- Title(参考訳): 距離ベースニューラルモデルにおける入射EMとしてのグラディエントDescent
- Authors: Alan Oursland,
- Abstract要約: 標準目的で訓練されたニューラルネットワークは確率的推論の特徴を持つ振る舞いを示す。
これらの現象を説明する直接的な導出を提供する。
推論が最適化に埋め込まれているため、明示的な推論アルゴリズムは不要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks trained with standard objectives exhibit behaviors characteristic of probabilistic inference: soft clustering, prototype specialization, and Bayesian uncertainty tracking. These phenomena appear across architectures -- in attention mechanisms, classification heads, and energy-based models -- yet existing explanations rely on loose analogies to mixture models or post-hoc architectural interpretation. We provide a direct derivation. For any objective with log-sum-exp structure over distances or energies, the gradient with respect to each distance is exactly the negative posterior responsibility of the corresponding component: $\partial L / \partial d_j = -r_j$. This is an algebraic identity, not an approximation. The immediate consequence is that gradient descent on such objectives performs expectation-maximization implicitly -- responsibilities are not auxiliary variables to be computed but gradients to be applied. No explicit inference algorithm is required because inference is embedded in optimization. This result unifies three regimes of learning under a single mechanism: unsupervised mixture modeling, where responsibilities are fully latent; attention, where responsibilities are conditioned on queries; and cross-entropy classification, where supervision clamps responsibilities to targets. The Bayesian structure recently observed in trained transformers is not an emergent property but a necessary consequence of the objective geometry. Optimization and inference are the same process.
- Abstract(参考訳): 標準的な目的で訓練されたニューラルネットワークは、ソフトクラスタリング、プロトタイプの特殊化、ベイズの不確実性追跡といった確率的推論の特徴的な振る舞いを示す。
これらの現象はアーキテクチャ(注意機構、分類ヘッド、エネルギーベースモデルなど)にまたがって現れるが、既存の説明は混合モデルやポストホックアーキテクチャの解釈と緩やかな類似性に依存している。
直接の導出を提供する。
距離やエネルギーを超えた対数sum-exp構造を持つ任意の対象に対して、各距離に関する勾配は、対応する成分の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の責任である: $\partial L / \partial d_j = -r_j$。
これは代数的恒等式であり近似ではない。
即ち、そのような目的に対する勾配降下は予想最大化を暗黙的に実行し、責任は計算すべき補助変数ではなく、適用すべき勾配である。
推論が最適化に埋め込まれているため、明示的な推論アルゴリズムは不要である。
この結果は、教師なしの混合モデリング、責任が完全に遅延している注意、クエリーに責任が条件付けられている注意、監督がターゲットに責任を負うクロスエントロピー分類という、単一のメカニズムの下での学習の3つのルールを統一する。
訓練された変圧器で最近観測されたベイズ構造は創発的な性質ではなく、目的幾何学の必要な結果である。
最適化と推論は同じプロセスです。
関連論文リスト
- Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning [13.891913455492697]
我々は、一般の、構造的前提のないアプローチに対する中核的な障害は、同値なキャラクタリゼーションの欠如であると主張する。
このアプローチの鍵となるのは、エッジレベルの制約という新しいツールです。
論文 参考訳(メタデータ) (2026-03-05T03:57:14Z) - Structural Disentanglement in Bilinear MLPs via Architectural Inductive Bias [0.0]
我々は、モデルがトレーニング中に内部表現をどのように構成するかから失敗が発生すると主張している。
線形パラメータ化は勾配流条件下での非混合特性を有することを示す。
ポイントワイズ非線形ネットワークとは異なり、乗法的アーキテクチャは、基礎となる代数構造と整合した真の作用素を復元することができる。
論文 参考訳(メタデータ) (2026-02-05T13:14:01Z) - Deep Neural Networks as Iterated Function Systems and a Generalization Bound [2.7920304852537536]
2つの重要なディープアーキテクチャは、場所に依存したIFSとみなすことができるか、あるいは正統に関連付けられるかを示す。
データ分布と画像間のコラージュ型近似誤差を制御する生成モデリングのためのワッサーシュタイン境界を導出する。
論文 参考訳(メタデータ) (2026-01-27T07:32:49Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。
本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:08:02Z) - Attention layers provably solve single-location regression [12.355792442566681]
Transformerのような注意に基づくモデルは様々なタスクにまたがるが、特にトークンの間隔や内部線形構造に関する包括的な理論的理解は欠如している。
本稿では,一列のトークンだけが出力を決定する単一位置回帰タスクを導入し,その位置が線形射影によって検索可能な潜在値であることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:28:02Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - Understanding Dynamics of Nonlinear Representation Learning and Its
Application [12.697842097171119]
暗黙的非線形表現学習のダイナミクスについて検討する。
我々は,データ構造アライメント条件がグローバル収束に十分であることを示す。
我々はデータ構造アライメント条件を満たす新しいトレーニングフレームワークを作成した。
論文 参考訳(メタデータ) (2021-06-28T16:31:30Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。