Fugu-MT 論文翻訳(概要): A theoretical perspective on mode collapse in variational inference

論文の概要: A theoretical perspective on mode collapse in variational inference

arxiv url: http://arxiv.org/abs/2410.13300v1
Date: Thu, 17 Oct 2024 07:56:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.816374
Title: A theoretical perspective on mode collapse in variational inference
Title（参考訳）: 変分推論におけるモード崩壊の理論的考察
Authors: Roman Soletskyi, Marylou Gabrié, Bruno Loureiro,
Abstract要約: 統計的に有利なシナリオにおいてもモード崩壊が存在することを示し、それを駆動する2つの主要なメカニズム、平均アライメントと消滅するウェイトを同定する。我々の理論的な知見は、一般的な生成モデルのクラスである正規化フローを用いた変分推論の実装と一致している。
参考スコア（独自算出の注目度）: 8.74105235144778
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While deep learning has expanded the possibilities for highly expressive variational families, the practical benefits of these tools for variational inference (VI) are often limited by the minimization of the traditional Kullback-Leibler objective, which can yield suboptimal solutions. A major challenge in this context is \emph{mode collapse}: the phenomenon where a model concentrates on a few modes of the target distribution during training, despite being statistically capable of expressing them all. In this work, we carry a theoretical investigation of mode collapse for the gradient flow on Gaussian mixture models. We identify the key low-dimensional statistics characterizing the flow, and derive a closed set of low-dimensional equations governing their evolution. Leveraging this compact description, we show that mode collapse is present even in statistically favorable scenarios, and identify two key mechanisms driving it: mean alignment and vanishing weight. Our theoretical findings are consistent with the implementation of VI using normalizing flows, a class of popular generative models, thereby offering practical insights.
Abstract（参考訳）: 深層学習は高度に表現力のある変分族の可能性を広げてきたが、これらのツールによる変分推論(VI)の実践的利点は、しばしば、最適解が得られる伝統的なクルバック・リーブラー目標の最小化によって制限される。この文脈における大きな課題は「emph{mode collapse}」(モデルが訓練中にターゲット分布のいくつかのモードに集中する現象)である。本研究では,ガウス混合モデルにおける勾配流のモード崩壊に関する理論的研究を行う。流れを特徴づける重要な低次元統計を同定し、その進化を規定する低次元方程式の閉集合を導出する。このコンパクトな記述を活用することで、統計的に有利なシナリオでもモード崩壊が存在し、それを駆動する2つの重要なメカニズムである平均アライメントと消滅ウェイトが特定できる。我々の理論的な知見は、一般的な生成モデルのクラスである正規化フローを用いたVIの実装と一致し、実用的な洞察を提供する。

関連論文リスト

On the Closed-Form of Flow Matching: Generalization Does Not Arise from Target Stochasticity [9.174891098192951]
拡散・流れマッチング技術がなぜ効果的に一般化されるのかを考察する。高次元設定では、フローマッチング損失の一般化と閉形式バージョンがほぼ等価な損失をもたらすことを示す。
論文参考訳（メタデータ） (2025-06-04T08:50:32Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文参考訳（メタデータ） (2024-07-21T13:33:08Z)
Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。 ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文参考訳（メタデータ） (2024-06-11T03:07:41Z)
Unveil Conditional Diffusion Models with Classifier-free Guidance: A Sharp Statistical Theory [87.00653989457834]
条件付き拡散モデルは現代の画像合成の基礎となり、計算生物学や強化学習などの分野に広く応用されている。経験的成功にもかかわらず、条件拡散モデルの理論はほとんど欠落している。本稿では,条件拡散モデルを用いた分布推定の急激な統計的理論を提示することにより,ギャップを埋める。
論文参考訳（メタデータ） (2024-03-18T17:08:24Z)
Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。我々は、この現象を幅広い状況で定量的に概説する分析式を得る。モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文参考訳（メタデータ） (2024-02-12T15:26:01Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-09T15:43:46Z)
On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文参考訳（メタデータ） (2023-10-06T17:50:38Z)
Eliminating Lipschitz Singularities in Diffusion Models [51.806899946775076]
拡散モデルは、時間ステップの零点付近で無限のリプシッツをしばしば表すことを示す。これは、積分演算に依存する拡散過程の安定性と精度に脅威をもたらす。我々はE-TSDMと呼ばれる新しい手法を提案し、これは0に近い拡散モデルのリプシッツを除去する。
論文参考訳（メタデータ） (2023-06-20T03:05:28Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。我々はこれらの現象を具体的原理で補うと推測する。
論文参考訳（メタデータ） (2021-03-16T16:26:36Z)
Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep Learning [29.473503894240096]
我々は、厳密な分類ではなく、単純な表現の値を取るデータにカテゴリ横断エントロピー損失を用いることに焦点をあてる。このプラクティスは、ラベルの平滑化やアクター/ミリ波強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。我々はこれらのモデルに対して確率論的に着想を得た代替案を提案し、より原理的で理論的に魅力的であるアプローチを提供する。
論文参考訳（メタデータ） (2020-11-10T16:44:35Z)
Robust model training and generalisation with Studentising flows [22.757298187704745]
本稿では、ロバストな(特に耐性のある)統計からの洞察に基づいて、これらの手法をさらに改善する方法について論じる。本稿では, ガウス分布の簡易なドロップイン置換として, 太い尾の潜伏分布を持つフローベースモデルを提案する。いくつかの異なるデータセットの実験により、提案手法の有効性が確認された。
論文参考訳（メタデータ） (2020-06-11T16:47:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。