Fugu-MT 論文翻訳(概要): Gradient Descent as Implicit EM in Distance-Based Neural Models

論文の概要: Gradient Descent as Implicit EM in Distance-Based Neural Models

arxiv url: http://arxiv.org/abs/2512.24780v1
Date: Wed, 31 Dec 2025 10:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-01 23:27:28.628942
Title: Gradient Descent as Implicit EM in Distance-Based Neural Models
Title（参考訳）: 距離ベースニューラルモデルにおける入射EMとしてのグラディエントDescent
Authors: Alan Oursland,
Abstract要約: 標準目的で訓練されたニューラルネットワークは確率的推論の特徴を持つ振る舞いを示す。これらの現象を説明する直接的な導出を提供する。推論が最適化に埋め込まれているため、明示的な推論アルゴリズムは不要である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural networks trained with standard objectives exhibit behaviors characteristic of probabilistic inference: soft clustering, prototype specialization, and Bayesian uncertainty tracking. These phenomena appear across architectures -- in attention mechanisms, classification heads, and energy-based models -- yet existing explanations rely on loose analogies to mixture models or post-hoc architectural interpretation. We provide a direct derivation. For any objective with log-sum-exp structure over distances or energies, the gradient with respect to each distance is exactly the negative posterior responsibility of the corresponding component: $\partial L / \partial d_j = -r_j$. This is an algebraic identity, not an approximation. The immediate consequence is that gradient descent on such objectives performs expectation-maximization implicitly -- responsibilities are not auxiliary variables to be computed but gradients to be applied. No explicit inference algorithm is required because inference is embedded in optimization. This result unifies three regimes of learning under a single mechanism: unsupervised mixture modeling, where responsibilities are fully latent; attention, where responsibilities are conditioned on queries; and cross-entropy classification, where supervision clamps responsibilities to targets. The Bayesian structure recently observed in trained transformers is not an emergent property but a necessary consequence of the objective geometry. Optimization and inference are the same process.
Abstract（参考訳）: 標準的な目的で訓練されたニューラルネットワークは、ソフトクラスタリング、プロトタイプの特殊化、ベイズの不確実性追跡といった確率的推論の特徴的な振る舞いを示す。これらの現象はアーキテクチャ(注意機構、分類ヘッド、エネルギーベースモデルなど)にまたがって現れるが、既存の説明は混合モデルやポストホックアーキテクチャの解釈と緩やかな類似性に依存している。直接の導出を提供する。距離やエネルギーを超えた対数sum-exp構造を持つ任意の対象に対して、各距離に関する勾配は、対応する成分の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の責任である: $\partial L / \partial d_j = -r_j$。これは代数的恒等式であり近似ではない。即ち、そのような目的に対する勾配降下は予想最大化を暗黙的に実行し、責任は計算すべき補助変数ではなく、適用すべき勾配である。推論が最適化に埋め込まれているため、明示的な推論アルゴリズムは不要である。この結果は、教師なしの混合モデリング、責任が完全に遅延している注意、クエリーに責任が条件付けられている注意、監督がターゲットに責任を負うクロスエントロピー分類という、単一のメカニズムの下での学習の3つのルールを統一する。訓練された変圧器で最近観測されたベイズ構造は創発的な性質ではなく、目的幾何学の必要な結果である。最適化と推論は同じプロセスです。

関連論文リスト

Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-09-08T12:08:02Z)
Attention layers provably solve single-location regression [12.355792442566681]
Transformerのような注意に基づくモデルは様々なタスクにまたがるが、特にトークンの間隔や内部線形構造に関する包括的な理論的理解は欠如している。本稿では,一列のトークンだけが出力を決定する単一位置回帰タスクを導入し,その位置が線形射影によって検索可能な潜在値であることを示す。
論文参考訳（メタデータ） (2024-10-02T13:28:02Z)
Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。記号の配置に非依存であり、それによって表現される意味論にのみ依存する。識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文参考訳（メタデータ） (2024-05-12T22:18:25Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Nonparametric Identifiability of Causal Representations from Unknown Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文参考訳（メタデータ） (2023-06-01T10:51:58Z)
Discovering Latent Causal Variables via Mechanism Sparsity: A New Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文参考訳（メタデータ） (2021-07-21T14:22:14Z)
Understanding Dynamics of Nonlinear Representation Learning and Its Application [12.697842097171119]
暗黙的非線形表現学習のダイナミクスについて検討する。我々は,データ構造アライメント条件がグローバル収束に十分であることを示す。我々はデータ構造アライメント条件を満たす新しいトレーニングフレームワークを作成した。
論文参考訳（メタデータ） (2021-06-28T16:31:30Z)
Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文参考訳（メタデータ） (2020-11-04T10:25:13Z)
Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文参考訳（メタデータ） (2020-08-02T11:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。