論文の概要: On the Natural Gradient of the Evidence Lower Bound
- arxiv url: http://arxiv.org/abs/2307.11249v2
- Date: Wed, 01 Oct 2025 11:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 00:38:48.311407
- Title: On the Natural Gradient of the Evidence Lower Bound
- Title(参考訳): エビデンス下界の自然勾配について
- Authors: Nihat Ay, Jesse van Oostrum, Adwait Datar,
- Abstract要約: 本稿では,エビデンス・ローバウンド(ELBO)のフィッシャー・ラオ勾配(自然勾配とも呼ばれる)について考察する。
このことは、エビデンスとその下限であるELBOの間のギャップが、本質的に、制約のない最適化の中で消滅する自然勾配を持つことを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article studies the Fisher-Rao gradient, also referred to as the natural gradient, of the evidence lower bound (ELBO) which plays a central role in generative machine learning. It reveals that the gap between the evidence and its lower bound, the ELBO, has essentially a vanishing natural gradient within unconstrained optimization. As a result, maximization of the ELBO is equivalent to minimization of the Kullback-Leibler divergence from a target distribution, the primary objective function of learning. Building on this insight, we derive a condition under which this equivalence persists even when optimization is constrained to a model. This condition yields a geometric characterization, which we formalize through the notion of a cylindrical model.
- Abstract(参考訳): 本稿では、生成機械学習において中心的な役割を果たすエビデンスローバウンド(ELBO)のフィッシャー・ラオ勾配(自然勾配とも呼ばれる)について研究する。
このことは、エビデンスとその下限であるELBOの間のギャップが、本質的に、制約のない最適化の中で消滅する自然勾配を持っていることを明らかにしている。
その結果、ELBOの最大化は、学習の主目的関数である目標分布からのKulback-Leibler分散の最小化と等価である。
この知見に基づいて、モデルに最適化が制約された場合でも、この等価性が持続する条件を導出する。
この条件は幾何学的特徴を与えるが、これは円筒モデルの概念によって定式化される。
関連論文リスト
- ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - Evidence Slopes and Effective Dimension in Singular Linear Models [0.0]
ラプラス近似を実標準しきい値(RLCT)に置き換える特異学習理論
ラプラス/BIC時間対数 n の誤差が (d/2 %) 時間対数 n と線形に大きくなることを理論的かつ実証的に示す。
以上の結果から, 特異モデルにおけるラプラス故障の具体的な有限サンプル解析を行い, 簡単な線形設定において, 有効次元の実用的な推定指標としてエビデンス・スロープが有効であることを示す。
論文 参考訳(メタデータ) (2026-01-03T17:05:55Z) - Tree-Preconditioned Differentiable Optimization and Axioms as Layers [0.0]
Axioms-as-Layers"パラダイムは、ランダムユーティリティモデルの公理構造を直接ディープニューラルネットワークに埋め込む。
公理としてのレイヤー」パラダイムは、ペナルティに基づく手法に固有の構造的過適合を排除している。
論文 参考訳(メタデータ) (2025-12-03T04:47:37Z) - Gradient flow for deep equilibrium single-index models [32.2015869030351]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、無限に深い重み付きニューラルネットワークをトレーニングするための強力なパラダイムとして登場した。
線形モデルと単一インデックスモデルの簡単な設定でDECの勾配勾配勾配ダイナミクスを厳密に研究する。
次に、線形DQと深い平衡単インデックスモデルに対する大域最小化器への勾配勾配勾配の線形収束を証明した。
論文 参考訳(メタデータ) (2025-11-21T06:14:41Z) - Hellinger-Kantorovich Gradient Flows: Global Exponential Decay of Entropy Functionals [52.154685604660465]
本稿では,Heringer-Kantorovich(HK)幾何に着目し,正測度と確率測度の勾配流の族について検討する。
中心的な寄与は、オットー・ワッサーシュタインおよびヘルリンガー型勾配流の下でのエントロピー汎函数の大域的指数減衰挙動の完全な特徴づけである。
論文 参考訳(メタデータ) (2025-01-28T16:17:09Z) - A New Formulation of Lipschitz Constrained With Functional Gradient Learning for GANs [52.55025869932486]
本稿では,大規模データセット上でGAN(Generative Adversarial Networks)のトレーニングを行うための有望な代替手法を提案する。
本稿では,GANの学習を安定させるために,Lipschitz-Constrained Functional Gradient GANs Learning (Li-CFG)法を提案する。
判別器勾配のノルムを増大させることにより、潜在ベクトルの近傍サイズを小さくすることができることを示す。
論文 参考訳(メタデータ) (2025-01-20T02:48:07Z) - Globally Convergent Variational Inference [3.126959812401426]
本研究では, 特定の VI 手法のグローバル収束性を確立する。
この方法は神経後部推定(NPE)の例と考えられる。
アブレーション研究と実際的な問題では,NPEの非漸近的有限ニューロン設定における挙動が説明できる。
論文 参考訳(メタデータ) (2025-01-14T15:36:32Z) - Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI [59.96044730204345]
微分自由拡散多様体制約勾配(FreeMCG)を導入する。
FreeMCGは、与えられたニューラルネットワークの説明可能性を改善する基盤として機能する。
提案手法は,XAIツールが期待する本質性を保ちながら,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:15:14Z) - Kernel Approximation of Fisher-Rao Gradient Flows [52.154685604660465]
本稿では,フィッシャー・ラオ型およびワッサーシュタイン型勾配流の勾配構造,流れ方程式,および核近似に関する厳密な研究を行う。
具体的には、フィッシャー・ラオ幾何学とその様々なカーネルに基づく近似に注目し、原理的な理論的枠組みを開発する。
論文 参考訳(メタデータ) (2024-10-27T22:52:08Z) - Semi-Implicit Functional Gradient Flow [30.32233517392456]
近似系として摂動粒子を用いる関数勾配ParVI法を提案する。
対応する関数勾配流は、スコアマッチングによって推定できるが、強い理論的収束を保証する。
論文 参考訳(メタデータ) (2024-10-23T15:00:30Z) - Fisher-Rao Gradient Flows of Linear Programs and State-Action Natural Policy Gradients [15.218434620361387]
状態-作用分布のフィッシャー情報行列に基づく別の自然勾配法について検討する。
摂動型フィッシャー・ラオ勾配流と自然勾配流の近似誤差に対するサブ線形収束性を示す。
論文 参考訳(メタデータ) (2024-03-28T14:16:23Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Particle-based Variational Inference with Preconditioned Functional
Gradient Flow [13.519223374081648]
プレコンディション付き関数勾配流(PFG)と呼ばれる新しい粒子ベース変分推論アルゴリズムを提案する。
PFGはStein variational gradient descent (SVGD)に対していくつかの利点がある
ニューラルネットワークのような非線形関数クラスは勾配流を推定するために組み込むことができる。
論文 参考訳(メタデータ) (2022-11-25T08:31:57Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Learning to Reason with Neural Networks: Generalization, Unseen Data and
Boolean Measures [44.87247707099189]
本稿では,[ZRKB21]で導入されたポインタ値検索(PVR)ベンチマークについて考察する。
まず、対称ニューラルネットワーク上で勾配勾配勾配の論理関数を学習するために、対象関数の雑音安定性の観点から一般化誤差を下界化できることを示した。
論文 参考訳(メタデータ) (2022-05-26T21:53:47Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - A Near-Optimal Gradient Flow for Learning Neural Energy-Based Models [93.24030378630175]
学習エネルギーベースモデル(EBM)の勾配流を最適化する新しい数値スキームを提案する。
フォッカー・プランク方程式から大域相対エントロピーの2階ワッサーシュタイン勾配流を導出する。
既存のスキームと比較して、ワッサーシュタイン勾配流は実データ密度を近似するより滑らかで近似的な数値スキームである。
論文 参考訳(メタデータ) (2019-10-31T02:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。