論文の概要: Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms
- arxiv url: http://arxiv.org/abs/2410.19055v1
- Date: Thu, 24 Oct 2024 18:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:18.261448
- Title: Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms
- Title(参考訳): Newton Losses: 微分アルゴリズムによる学習における曲率情報の利用
- Authors: Felix Petersen, Christian Borgelt, Tobias Sutter, Hilde Kuehne, Oliver Deussen, Stefano Ermon,
- Abstract要約: カスタム目的の8つの異なるニューラルネットワークのトレーニング方法を示す。
我々はその2次情報を経験的フィッシャー行列を通して活用する。
ロスロスロスシブルアルゴリズムを用いて、少ない微分可能アルゴリズムに対する大幅な改善を実現する。
- 参考スコア(独自算出の注目度): 80.37846867546517
- License:
- Abstract: When training neural networks with custom objectives, such as ranking losses and shortest-path losses, a common problem is that they are, per se, non-differentiable. A popular approach is to continuously relax the objectives to provide gradients, enabling learning. However, such differentiable relaxations are often non-convex and can exhibit vanishing and exploding gradients, making them (already in isolation) hard to optimize. Here, the loss function poses the bottleneck when training a deep neural network. We present Newton Losses, a method for improving the performance of existing hard to optimize losses by exploiting their second-order information via their empirical Fisher and Hessian matrices. Instead of training the neural network with second-order techniques, we only utilize the loss function's second-order information to replace it by a Newton Loss, while training the network with gradient descent. This makes our method computationally efficient. We apply Newton Losses to eight differentiable algorithms for sorting and shortest-paths, achieving significant improvements for less-optimized differentiable algorithms, and consistent improvements, even for well-optimized differentiable algorithms.
- Abstract(参考訳): ランク付け損失や最短パス損失など、カスタム目的のニューラルネットワークをトレーニングする場合、一般的な問題は、それ自体が微分不可能であることだ。
一般的なアプローチは、目標を継続的に緩和し、グラデーションを提供し、学習を可能にすることである。
しかし、そのような微分可能な緩和はしばしば非凸であり、消滅し爆発する勾配を示すことができ、(既に孤立している)最適化が困難である。
ここでは、損失関数は、ディープニューラルネットワークをトレーニングする際のボトルネックとなる。
実験的なFisherおよびHessian行列を用いて2次情報を活用することにより、損失を最適化するために既存のハードの性能を向上させる方法であるNewton Lossesを提案する。
ニューラルネットワークを二階法でトレーニングする代わりに、損失関数の2階情報をNewton Lossに置き換えるだけでなく、勾配降下でネットワークをトレーニングする。
これにより、計算効率が向上する。
我々はNewton Lossesを、ソートと最短パスのための8つの微分可能アルゴリズムに適用し、最適化の少ない微分可能アルゴリズムに対する大幅な改善と、最適化のよい微分可能アルゴリズムに対する一貫した改善を実現した。
関連論文リスト
- Training via quantum superposition circumventing local minima and vanishing gradient of sinusoidal neural network [0.6021787236982659]
深層ニューラルネットワーク(SinNN)の量子トレーニングのためのアルゴリズムを提案する。
量子トレーニングは、当初、ウェイト値に対する均一な重ね合わせを、ベストウェイトでピークが保証されるものへと進化させる。
このアルゴリズムをおもちゃの例で実証し、損失関数の最適化において勾配降下を実際に上回り、必要な時間でブルート力探索を上回ります。
論文 参考訳(メタデータ) (2024-10-29T13:06:46Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks [6.452225158891343]
本稿では,ニューラルネットワークのトレーニング速度と最終的な精度が,ニューラルネットワークのトレーニングに使用する損失関数に大きく依存することを示す。
様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-17T12:52:06Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Refining neural network predictions using background knowledge [68.35246878394702]
学習システムにおける論理的背景知識を用いて,ラベル付きトレーニングデータの不足を補うことができることを示す。
そこで本研究では,修正された予測を元の予測に近い精度で検出する微分可能精細関数を提案する。
このアルゴリズムは、複雑なSATの公式に対して、非常に少ない繰り返しで最適に洗練され、勾配降下ができない解がしばしば見つかる。
論文 参考訳(メタデータ) (2022-06-10T10:17:59Z) - Training Neural Networks using SAT solvers [1.0152838128195465]
本稿では,SATソルバを用いてニューラルネットワークのトレーニングを行うグローバル最適化手法を提案する。
実験では,パリティ学習などのタスクにおいて,ADAMオプティマイザに対するアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2022-06-10T01:31:12Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。