論文の概要: Towards Understanding the Optimization Mechanisms in Deep Learning
- arxiv url: http://arxiv.org/abs/2503.23016v1
- Date: Sat, 29 Mar 2025 08:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.892711
- Title: Towards Understanding the Optimization Mechanisms in Deep Learning
- Title(参考訳): ディープラーニングにおける最適化メカニズムの理解に向けて
- Authors: Binchuan Qi, Wei Gong, Li Li,
- Abstract要約: 本稿では,ディープニューラルネットワークを用いた教師付き分類のメカニズムを探るため,分布推定の観点を採用する。
後者では、オーバー・アンド・確率ランダム化のようなメカニズムに関する理論的洞察を提供する。
- 参考スコア(独自算出の注目度): 5.281849820329249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we adopt a probability distribution estimation perspective to explore the optimization mechanisms of supervised classification using deep neural networks. We demonstrate that, when employing the Fenchel-Young loss, despite the non-convex nature of the fitting error with respect to the model's parameters, global optimal solutions can be approximated by simultaneously minimizing both the gradient norm and the structural error. The former can be controlled through gradient descent algorithms. For the latter, we prove that it can be managed by increasing the number of parameters and ensuring parameter independence, thereby providing theoretical insights into mechanisms such as over-parameterization and random initialization. Ultimately, the paper validates the key conclusions of the proposed method through empirical results, illustrating its practical effectiveness.
- Abstract(参考訳): 本稿では,深層ニューラルネットワークを用いた教師付き分類の最適化機構を検討するために,確率分布推定の観点を採用する。
本研究では,Fenchel-Young損失を用いた場合,モデルパラメータに対する不凸性にもかかわらず,勾配ノルムと構造誤差の両方を同時に最小化することにより,大域的最適解を近似できることを示した。
前者は勾配降下アルゴリズムで制御できる。
後者では,パラメータの数を増やし,パラメータ独立性を確保することにより,過度パラメータ化やランダム初期化などのメカニズムに関する理論的知見を提供する。
最終的に,提案手法の重要な結論を実証実験により検証し,その実用性について考察した。
関連論文リスト
- Partial Transportability for Domain Generalization [56.37032680901525]
本稿では, 部分的同定と輸送可能性の理論に基づいて, 対象分布の関数値の有界化に関する新たな結果を紹介する。
我々の貢献は、輸送可能性問題に対する最初の一般的な評価手法を提供することである。
本稿では,スケーラブルな推論を実現するための勾配に基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T22:06:37Z) - Eliminating Ratio Bias for Gradient-based Simulated Parameter Estimation [0.7673339435080445]
本稿では、可能性関数が解析的に利用できないモデルにおけるパラメータキャリブレーションの課題に対処する。
本稿では,最大推定と後続密度推定の両問題において,比バイアスの問題に対処するマルチタイムスケールを応用した勾配に基づくシミュレーションパラメータ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Extended convexity and smoothness and their applications in deep learning [5.281849820329249]
本稿では,ディープラーニングにおける非滑らかな最適化のメカニズムを明らかにすることを目的とする。
解析の結果、勾配降下法(SGD)アルゴリズムは経験的リスクを効果的に最小化できることが示された。
論文 参考訳(メタデータ) (2024-10-08T08:40:07Z) - Probability Distribution Learning and Its Application in Deep Learning [0.0]
本稿では,確率分布学習(PD Learning)と呼ばれる理論学習フレームワークを紹介する。
PD学習は確率分布の学習に重点を置いており、確率の単純さの中で確率変数としてモデル化される。
論文 参考訳(メタデータ) (2024-06-09T06:49:22Z) - Error Bounds of Supervised Classification from Information-Theoretic Perspective [0.0]
我々は、情報理論の観点から、教師付き分類にディープニューラルネットワークを使用する場合の予測リスクのバウンダリについて検討する。
経験的リスクをさらに分解したモデルリスクとフィッティングエラーを導入する。
論文 参考訳(メタデータ) (2024-06-07T01:07:35Z) - Function-Space Regularization in Neural Networks: A Probabilistic
Perspective [51.133793272222874]
所望の予測関数に関する情報をニューラルネットワークトレーニングに明示的にエンコードできる、モチベーションの高い正規化手法を導出できることが示される。
本手法の有効性を実証的に評価し,提案手法がほぼ完全なセマンティックシフト検出と高度に校正された予測不確実性推定に繋がることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:50:56Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Guiding Neural Network Initialization via Marginal Likelihood
Maximization [0.9137554315375919]
活性化関数と共分散関数を持つガウス過程モデルとニューラルネットワークの関係を利用して、超パラメータ値を推定する。
本実験では,mnist分類タスクにおいて限界一貫性が最適に近い予測性能をもたらすことを示唆する。
論文 参考訳(メタデータ) (2020-12-17T21:46:09Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。