論文の概要: A Dual Process Model for Optimizing Cross Entropy in Neural Networks
- arxiv url: http://arxiv.org/abs/2104.13277v1
- Date: Tue, 27 Apr 2021 15:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 16:10:59.911166
- Title: A Dual Process Model for Optimizing Cross Entropy in Neural Networks
- Title(参考訳): ニューラルネットワークにおけるクロスエントロピー最適化のためのデュアルプロセスモデル
- Authors: Stefan Jaeger
- Abstract要約: クロスエントロピーの最小化は、人工ニューラルネットワークの訓練に広く用いられる方法である。
この理論エッセイは、2つの過程を持つ双対過程モデルを調査し、1つの過程がクルバック・ライバーの発散を最小化し、その双対過程がシャノンエントロピーを最小化する。
- 参考スコア(独自算出の注目度): 1.0152838128195465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimizing cross-entropy is a widely used method for training artificial
neural networks. Many training procedures based on backpropagation use
cross-entropy directly as their loss function. Instead, this theoretical essay
investigates a dual process model with two processes, in which one process
minimizes the Kullback-Leibler divergence while its dual counterpart minimizes
the Shannon entropy. Postulating that learning consists of two dual processes
complementing each other, the model defines an equilibrium state for both
processes in which the loss function assumes its minimum. An advantage of the
proposed model is that it allows deriving the optimal learning rate and
momentum weight to update network weights for backpropagation. Furthermore, the
model introduces the golden ratio and complex numbers as important new concepts
in machine learning.
- Abstract(参考訳): クロスエントロピーの最小化は、ニューラルネットワークのトレーニングに広く用いられている方法である。
バックプロパゲーションに基づく多くのトレーニング手順では、クロスエントロピーを直接損失関数として使用する。
その代わり、この理論エッセイは、2つの過程を持つ双対過程モデルを調査し、1つの過程がクルバック・ライバーの発散を最小化し、その双対過程がシャノンのエントロピーを最小化する。
学習が互いに補完する2つの双対過程からなると仮定すると、モデルは損失関数が最小となる両方の過程の平衡状態を定義する。
提案モデルの利点は、最適学習率と運動量重みを導出して、バックプロパゲーションのためのネットワーク重みを更新できることである。
さらに、モデルは機械学習において重要な新しい概念として黄金比と複素数を導入する。
関連論文リスト
- Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Mixture Manifold Networks: A Computationally Efficient Baseline for
Inverse Modeling [7.891408798179181]
汎用逆問題に対処する新しい手法を提案する。
近年の研究では、ディープラーニングによる顕著な結果が示されているが、モデルの性能と計算時間との間にはトレードオフがある。
論文 参考訳(メタデータ) (2022-11-25T20:18:07Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Learning Physics-Informed Neural Networks without Stacked
Back-propagation [82.26566759276105]
我々は,物理インフォームドニューラルネットワークのトレーニングを著しく高速化する新しい手法を開発した。
特に、ガウス滑らか化モデルによりPDE解をパラメータ化し、スタインの恒等性から導かれる2階微分がバックプロパゲーションなしで効率的に計算可能であることを示す。
実験の結果,提案手法は通常のPINN訓練に比べて2桁の精度で競合誤差を実現できることがわかった。
論文 参考訳(メタデータ) (2022-02-18T18:07:54Z) - Cooperative Deep $Q$-learning Framework for Environments Providing Image
Feedback [5.607676459156789]
本稿では, 深層強化学習, サンプル非効率性, 遅い学習の2つの課題を, NN駆動学習の2つのアプローチで解決する。
特に、時間差(TD)誤差駆動学習手法を開発し、TD誤差の線形変換のセットを導入し、ディープNNの各層のパラメータを直接更新する。
提案手法は学習と収束を高速化し,バッファサイズの削減を必要とすることを示す。
論文 参考訳(メタデータ) (2021-10-28T17:12:41Z) - Revisit Geophysical Imaging in A New View of Physics-informed Generative
Adversarial Learning [2.12121796606941]
完全な波形反転は高分解能地下モデルを生成する。
最小二乗関数を持つFWIは、局所ミニマ問題のような多くの欠点に悩まされる。
偏微分方程式とニューラルネットワークを用いた最近の研究は、2次元FWIに対して有望な性能を示している。
本稿では,波動方程式を識別ネットワークに統合し,物理的に一貫したモデルを正確に推定する,教師なし学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-23T15:54:40Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Model Order Reduction based on Runge-Kutta Neural Network [0.0]
本研究では,各ステップにいくつかの修正を加え,3つのシミュレーションモデルによるテストによる影響について検討する。
モデル再構成ステップでは,多層型パーセプトロン(mlp)とrunge-kuttaニューラルネットワーク(rknn)の2種類のニューラルネットワークアーキテクチャを比較した。
論文 参考訳(メタデータ) (2021-03-25T13:02:16Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。