論文の概要: Distributional simplicity bias and effective convexity in Energy Based Models
- arxiv url: http://arxiv.org/abs/2605.07844v1
- Date: Fri, 08 May 2026 15:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.145361
- Title: Distributional simplicity bias and effective convexity in Energy Based Models
- Title(参考訳): エネルギーモデルにおける分布の単純さバイアスと有効凸性
- Authors: Aurélien Decelle, Alfonso de Jesús Navas Gómez, Beatriz Seoane,
- Abstract要約: エネルギーに基づく学習は生成モデリングの強力な枠組みであるが、その訓練は本質的に非機械的である。
本稿では,実効モデルのレンズを用いたエネルギーベース学習の動的解析について述べる。
- 参考スコア(独自算出の注目度): 8.283940114367677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Energy-based learning is a powerful framework for generative modelling, but its training is inherently non-convex, leading potentially to sensitivity to initialisation, poor local optima, and unstable gradient dynamics. We present a dynamical analysis of energy-based learning through the lens of the effective model, which can be interpreted as either a generalised Ising model with higher-order interactions or the Fourier expansion of the energy. Under sufficient expressivity, we show that the gradient flow induced by learning strictly positive distributions over binary variables admits two types of fixed points: data-consistent points, which exactly reproduce the target distribution, and spurious points, which satisfy stationarity without matching the target distribution. Around data-consistent points, we show that perturbations are either stable or neutral, with neutral directions leaving the effective model invariant. Finally, we show that gradient dynamics induce a hierarchy in which lower-order interactions are learned before higher-order ones. This provides a mechanistic explanation for the distributional simplicity bias and clarifies why fixed points that are not data-consistent at low orders are not observed in practice.
- Abstract(参考訳): エネルギーベースの学習は生成モデリングの強力なフレームワークであるが、その訓練は本質的に非凸であり、初期化に対する感受性、局所最適性の低下、不安定な勾配ダイナミクスをもたらす可能性がある。
本稿では,高次相互作用を持つ一般化イジングモデルか,エネルギーのフーリエ展開のいずれかと解釈できる実効モデルのレンズによるエネルギーベース学習の動的解析について述べる。
両変数の厳密な正の分布を学習することによって引き起こされる勾配流は, 目標分布を正確に再現するデータ一貫性点と, 目標分布を一致させることなく定常性を満たすスプリアス点の2種類の固定点を持つことを示す。
データ一貫性のある点の周辺では、摂動は安定か中立かのいずれかであり、中立方向は有効モデルが不変であることを示す。
最後に、勾配力学は、上位の相互作用よりも先に下位の相互作用が学習される階層を誘導することを示す。
これは分布の単純さのバイアスを機械論的に説明し、なぜ低次でデータに一貫性のない固定点が実際に観測されないのかを明らかにする。
関連論文リスト
- Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data [4.344634631420729]
強化学習を用いて学習した単一層トランスフォーマーのポリシー勾配ダイナミクスを解析する。
最終回答の正確性のみを訓練しているにもかかわらず、ポリシー勾配はTransformerを構造化された解釈可能なアルゴリズムに収束させる。
論文 参考訳(メタデータ) (2026-01-21T16:36:19Z) - Dual Perspectives on Non-Contrastive Self-Supervised Learning [32.03781358157968]
エムストップ勾配とエム指数移動平均反復手順は、自己教師あり学習への非競合的なアプローチで一般的に用いられる。
本発表では、最適化と動的システムの両面からこれらの手順を考察する。
論文 参考訳(メタデータ) (2025-06-18T07:46:51Z) - Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する
L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文 参考訳(メタデータ) (2024-06-11T03:07:41Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape [40.78854925996]
Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。
共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
論文 参考訳(メタデータ) (2024-02-02T09:29:40Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Driven-dissipative Ising Model: An exact field-theoretical analysis [0.0]
駆動散逸多体系は、非平衡力学、散逸、多体相互作用により解析的に解析することが困難である。
我々は、単純な散乱図から理解可能な、正確な場の理論解析とスピンモデルの図式表現を開発する。
論文 参考訳(メタデータ) (2021-01-13T19:00:21Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。