論文の概要: Clarifying MCMC-based training of modern EBMs : Contrastive Divergence
versus Maximum Likelihood
- arxiv url: http://arxiv.org/abs/2202.12176v1
- Date: Thu, 24 Feb 2022 16:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 17:43:08.506159
- Title: Clarifying MCMC-based training of modern EBMs : Contrastive Divergence
versus Maximum Likelihood
- Title(参考訳): 現代ebmのmcmcベーストレーニングの明確化 : 対比的発散と最大確率
- Authors: L\'eo Gagnon and Guillaume Lajoie
- Abstract要約: エネルギーベースモデル(EBM)フレームワークは、確率分布を学習し活用しようとする生成モデルに対する非常に一般的なアプローチである。
我々は、彼らが使用する学習アルゴリズムは、実際にはCDとして記述されず、新しい解釈に照らして、それらの手法を再解釈することができると論じる。
- 参考スコア(独自算出の注目度): 2.7557703490816268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Energy-Based Model (EBM) framework is a very general approach to
generative modeling that tries to learn and exploit probability distributions
only defined though unnormalized scores. It has risen in popularity recently
thanks to the impressive results obtained in image generation by parameterizing
the distribution with Convolutional Neural Networks (CNN). However, the
motivation and theoretical foundations behind modern EBMs are often absent from
recent papers and this sometimes results in some confusion. In particular, the
theoretical justifications behind the popular MCMC-based learning algorithm
Contrastive Divergence (CD) are often glossed over and we find that this leads
to theoretical errors in recent influential papers (Du & Mordatch, 2019; Du et
al., 2020). After offering a first-principles introduction of MCMC-based
training, we argue that the learning algorithm they use can in fact not be
described as CD and reinterpret theirs methods in light of a new
interpretation. Finally, we discuss the implications of our new interpretation
and provide some illustrative experiments.
- Abstract(参考訳): エネルギーベースモデル(ebm)フレームワークは、非正規化スコアでのみ定義される確率分布を学習し活用しようとする、生成モデリングに対する非常に一般的なアプローチである。
近年,畳み込みニューラルネットワーク(CNN)による分布のパラメータ化による画像生成による印象的な結果により,人気が高まっている。
しかし、現代のESMの背後にあるモチベーションと理論的基盤は、近年の論文からしばしば欠落しており、混乱を招くことがある。
特に、人気のMCMCベースの学習アルゴリズムであるContrastive Divergence(CD)の理論的正当性はしばしば誇張され、近年の影響力のある論文(Du & Mordatch, 2019; Du et al., 2020)で理論的誤りにつながることが判明した。
MCMCベースのトレーニングの初歩的な導入を行った後、彼らが使用する学習アルゴリズムは実際にはCDとして記述されず、新しい解釈に照らしてそれらの手法を再解釈できると論じる。
最後に,新しい解釈の意義を議論し,いくつかの実証実験を行った。
関連論文リスト
- A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - Sparse Linear Concept Discovery Models [11.138948381367133]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、隠蔽層が人間の理解可能な概念に結びついている一般的なアプローチである。
本稿では,Contrastive Language Imageモデルと単一スパース線形層に基づく,シンプルかつ直感的に解釈可能なフレームワークを提案する。
実験により、我々のフレームワークは、最近のCBMアプローチを精度的に上回るだけでなく、一例あたりの疎度も高いことを示す。
論文 参考訳(メタデータ) (2023-08-21T15:16:19Z) - End-To-End Latent Variational Diffusion Models for Inverse Problems in
High Energy Physics [61.44793171735013]
本稿では,最先端生成技術アプローチの潜時学習とエンドツーエンドの変分フレームワークを組み合わせた,新しい統合アーキテクチャ,潜時変分モデルを提案する。
我々の統一的アプローチは、非最新技術ベースラインの20倍以上の真理への分布自由距離を達成する。
論文 参考訳(メタデータ) (2023-05-17T17:43:10Z) - A Mathematical Framework for Learning Probability Distributions [0.0]
生成的モデリングと密度推定は 近年 非常にポピュラーな話題になっています
本論文は、すべての有名なモデルを単純な原理に基づいて導出できる数学的枠組みを提供する。
特に,これらのモデルが訓練中に暗黙的な正規化を楽しむことを証明し,早期停止時の一般化誤差が次元性の呪いを避ける。
論文 参考訳(メタデータ) (2022-12-22T04:41:45Z) - Recent Advances in Large Margin Learning [63.982279380483526]
本稿では,(非線形)深層ニューラルネットワーク(dnn)のための大規模マージントレーニングとその理論的基礎の最近の進歩に関する調査を行う。
古典研究から最新のDNNへの分類マージンの策定を一般化し、マージン、ネットワーク一般化、堅牢性の間の理論的関連性をまとめ、最近のDNNのマージン拡大の取り組みを総合的に紹介します。
論文 参考訳(メタデータ) (2021-03-25T04:12:00Z) - How to Train Your Energy-Based Models [19.65375049263317]
エネルギーベースモデル(EBM)は、未知の正規化定数まで確率密度や質量関数を指定する。
本チュートリアルは,ESMの適用や研究プロジェクト開始を希望する生成モデルの基本的理解者を対象としている。
論文 参考訳(メタデータ) (2021-01-09T04:51:31Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - A Chain Graph Interpretation of Real-World Neural Networks [58.78692706974121]
本稿では,NNを連鎖グラフ(CG)、フィードフォワードを近似推論手法として識別する別の解釈を提案する。
CG解釈は、確率的グラフィカルモデルのリッチな理論的枠組みの中で、各NNコンポーネントの性質を規定する。
我々は,CG解釈が様々なNN技術に対する新しい理論的支援と洞察を提供することを示す具体例を実例で示す。
論文 参考訳(メタデータ) (2020-06-30T14:46:08Z) - Demystifying Orthogonal Monte Carlo and Beyond [20.745014324028386]
オルソゴン・モンテカルロ(オルソゴン・モンテカルロ、Orthogonal Monte Carlo、OMC)は、構造的幾何学的条件(オルソゴン性)をサンプルに課す非常に効果的なサンプリングアルゴリズムである。
我々は、OMCの背後にある理論原理に新たな光を当て、いくつかの新しい濃度結果を得るために負依存確率変数の理論を適用した。
我々は,Near-Orthogonal Monte Carlo (NOMC)と呼ばれる数論手法と粒子アルゴリズムを利用した新しい拡張法を提案する。
論文 参考訳(メタデータ) (2020-05-27T18:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。