論文の概要: A theoretical perspective on mode collapse in variational inference
- arxiv url: http://arxiv.org/abs/2410.13300v1
- Date: Thu, 17 Oct 2024 07:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:31.568929
- Title: A theoretical perspective on mode collapse in variational inference
- Title(参考訳): 変分推論におけるモード崩壊の理論的考察
- Authors: Roman Soletskyi, Marylou Gabrié, Bruno Loureiro,
- Abstract要約: 統計的に有利なシナリオにおいてもモード崩壊が存在することを示し、それを駆動する2つの主要なメカニズム、平均アライメントと消滅するウェイトを同定する。
我々の理論的な知見は、一般的な生成モデルのクラスである正規化フローを用いた変分推論の実装と一致している。
- 参考スコア(独自算出の注目度): 8.74105235144778
- License:
- Abstract: While deep learning has expanded the possibilities for highly expressive variational families, the practical benefits of these tools for variational inference (VI) are often limited by the minimization of the traditional Kullback-Leibler objective, which can yield suboptimal solutions. A major challenge in this context is \emph{mode collapse}: the phenomenon where a model concentrates on a few modes of the target distribution during training, despite being statistically capable of expressing them all. In this work, we carry a theoretical investigation of mode collapse for the gradient flow on Gaussian mixture models. We identify the key low-dimensional statistics characterizing the flow, and derive a closed set of low-dimensional equations governing their evolution. Leveraging this compact description, we show that mode collapse is present even in statistically favorable scenarios, and identify two key mechanisms driving it: mean alignment and vanishing weight. Our theoretical findings are consistent with the implementation of VI using normalizing flows, a class of popular generative models, thereby offering practical insights.
- Abstract(参考訳): 深層学習は高度に表現力のある変分族の可能性を広げてきたが、これらのツールによる変分推論(VI)の実践的利点は、しばしば、最適解が得られる伝統的なクルバック・リーブラー目標の最小化によって制限される。
この文脈における大きな課題は「emph{mode collapse}」(モデルが訓練中にターゲット分布のいくつかのモードに集中する現象)である。
本研究では,ガウス混合モデルにおける勾配流のモード崩壊に関する理論的研究を行う。
流れを特徴づける重要な低次元統計を同定し、その進化を規定する低次元方程式の閉集合を導出する。
このコンパクトな記述を活用することで、統計的に有利なシナリオでもモード崩壊が存在し、それを駆動する2つの重要なメカニズムである平均アライメントと消滅ウェイトが特定できる。
我々の理論的な知見は、一般的な生成モデルのクラスである正規化フローを用いたVIの実装と一致し、実用的な洞察を提供する。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。
提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。
また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - Unveil Conditional Diffusion Models with Classifier-free Guidance: A Sharp Statistical Theory [87.00653989457834]
条件付き拡散モデルは現代の画像合成の基礎となり、計算生物学や強化学習などの分野に広く応用されている。
経験的成功にもかかわらず、条件拡散モデルの理論はほとんど欠落している。
本稿では,条件拡散モデルを用いた分布推定の急激な統計的理論を提示することにより,ギャップを埋める。
論文 参考訳(メタデータ) (2024-03-18T17:08:24Z) - Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。
我々は、この現象を幅広い状況で定量的に概説する分析式を得る。
モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:26:01Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep
Learning [29.473503894240096]
我々は、厳密な分類ではなく、単純な表現の値を取るデータにカテゴリ横断エントロピー損失を用いることに焦点をあてる。
このプラクティスは、ラベルの平滑化やアクター/ミリ波強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。
我々はこれらのモデルに対して確率論的に着想を得た代替案を提案し、より原理的で理論的に魅力的であるアプローチを提供する。
論文 参考訳(メタデータ) (2020-11-10T16:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。