論文の概要: A Layer Separation Optimization Framework for Cross-Entropy Training in Deep Learning
- arxiv url: http://arxiv.org/abs/2604.23225v1
- Date: Sat, 25 Apr 2026 09:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.215504
- Title: A Layer Separation Optimization Framework for Cross-Entropy Training in Deep Learning
- Title(参考訳): 深層学習におけるクロスエントロピー学習のための層分離最適化フレームワーク
- Authors: Yaru Liu, Michael K. Ng, Yiqi Gu,
- Abstract要約: 本稿では,ソフトマックスクロスエントロピー損失を用いたディープラーニング最適化問題について検討する。
本稿では, 強非線形サブプロブレムを緩和するための層分離戦略を提案する。
数値実験により提案手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 17.37954084665439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the deep learning optimization problem with softmax cross-entropy loss. We propose a layer separation strategy to alleviate the strong nonconvexity encountered during training deep networks. For cross-entropy models with fully connected and convolutional neural networks, we introduce auxiliary variables associated with hidden layer outputs and construct corresponding layer separation models, which decompose the original deeply nested optimization problem into a sequence of more manageable subproblems. We also conduct theoretical analyses, proving that the new layer separation loss provides an upper bound for the original cross-entropy loss. Moreover, we design alternating minimization algorithms and prove that, under appropriate conditions, these algorithms exhibit decreasing properties of the loss function. Numerical experiments validate the effectiveness of the proposed methods and indicate improved optimization behavior, especially for fully connected and convolutional neural networks.
- Abstract(参考訳): 本稿では,ソフトマックスクロスエントロピー損失を用いたディープラーニング最適化問題について検討する。
深層ネットワークのトレーニングにおいて発生する強い非凸性を緩和するための層分離戦略を提案する。
完全連結・畳み込み型ニューラルネットワークを用いたクロスエントロピーモデルでは、隠れ層出力に関連する補助変数を導入し、対応する層分離モデルを構築する。
また,新たな層分離損失が元のクロスエントロピー損失の上限となることを証明し,理論的解析を行った。
さらに, 変更最小化アルゴリズムを設計し, 適切な条件下では, 損失関数の特性が低下していることを証明する。
数値実験により提案手法の有効性が検証され,特に完全連結・畳み込みニューラルネットワークにおける最適化動作の改善が示された。
関連論文リスト
- Layer Separation Deep Learning Model with Auxiliary Variables for Partial Differential Equations [0.6215404942415159]
本稿では,部分方程式の深層学習に基づく手法を改善するために,階層分離モデル(LySep)を提案する。
損失最小化と解誤差低減におけるLySepの利点を理論的に示す。
論文 参考訳(メタデータ) (2025-07-17T03:43:18Z) - Deep Learning Optimization Using Self-Adaptive Weighted Auxiliary Variables [20.09691024284159]
本稿では,ニューラルネットワークや物理インフォームドネットワークによる学習のための新しいフレームワークを開発する。
私たちのフレームワークの堅牢性は、新しい損失が元の問題を最適化するのに役立ちます。
論文 参考訳(メタデータ) (2025-04-30T10:43:13Z) - Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:31:55Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Large-scale global optimization of ultra-high dimensional non-convex
landscapes based on generative neural networks [0.0]
超高次元最適化を行うアルゴリズムを提案する。
ディープ・ジェネレーティブ・ネットワークをベースとしています
提案手法は, 最先端のアルゴリズムと比較して, 機能評価が少なく, 性能がよいことを示す。
論文 参考訳(メタデータ) (2023-07-09T00:05:59Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。