論文の概要: Simmering: Sufficient is better than optimal for training neural networks
- arxiv url: http://arxiv.org/abs/2410.19912v1
- Date: Fri, 25 Oct 2024 18:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:47.257246
- Title: Simmering: Sufficient is better than optimal for training neural networks
- Title(参考訳): Simmering: ニューラルネットワークのトレーニングに最適な方法は十分
- Authors: Irina Babayan, Hazhir Aliahmadi, Greg van Anders,
- Abstract要約: これは、ニューラルネットワークをトレーニングして、十分十分な重みとバイアスを生成する物理ベースの方法です。
我々は、SimmeringがAdamが過剰に適合するニューラルネットワークを修正していることを示し、Simmeringが最初からデプロイされた場合、過適合を避けることを示す。
本稿では,ニューラルネットワーク学習のパラダイムとして最適化を問うとともに,情報幾何学的議論を活用し,十分な学習アルゴリズムのクラスの存在を示唆する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The broad range of neural network training techniques that invoke optimization but rely on ad hoc modification for validity suggests that optimization-based training is misguided. Shortcomings of optimization-based training are brought to particularly strong relief by the problem of overfitting, where naive optimization produces spurious outcomes. The broad success of neural networks for modelling physical processes has prompted advances that are based on inverting the direction of investigation and treating neural networks as if they were physical systems in their own right These successes raise the question of whether broader, physical perspectives could motivate the construction of improved training algorithms. Here, we introduce simmering, a physics-based method that trains neural networks to generate weights and biases that are merely ``good enough'', but which, paradoxically, outperforms leading optimization-based approaches. Using classification and regression examples we show that simmering corrects neural networks that are overfit by Adam, and show that simmering avoids overfitting if deployed from the outset. Our results question optimization as a paradigm for neural network training, and leverage information-geometric arguments to point to the existence of classes of sufficient training algorithms that do not take optimization as their starting point.
- Abstract(参考訳): 最適化を起動するが、妥当性に対するアドホックな修正に依存している幅広いニューラルネットワークトレーニング技術は、最適化ベースのトレーニングが誤用されていることを示唆している。
最適化に基づくトレーニングの欠点は、過度な適合の問題によって特に強い救済をもたらす。
物理プロセスのモデリングにおけるニューラルネットワークの広範な成功は、調査の方向を逆転させ、ニューラルネットワークが自身の物理的システムであるかのように扱うことに基づく進歩を招き、これらの成功は、より広い物理的視点が、改善されたトレーニングアルゴリズムの構築を動機付けるかどうかという疑問を提起している。
ここでは,ニューラルネットワークをトレーニングして,単に‘よい’だけである重みとバイアスを生成する物理ベースの手法であるsimmeringを紹介する。
分類と回帰例を使って、Adamが過度に適合するニューラルネットワークをシマリングが修正していることを示し、初期からデプロイされた場合、シマリングが過度に適合しないことを示す。
ニューラルネットワークトレーニングのパラダイムとして最適化を疑問視し,情報幾何学的議論を活用して,最適化を出発点としない十分なトレーニングアルゴリズムのクラスの存在を指摘する。
関連論文リスト
- Optimization Over Trained Neural Networks: Taking a Relaxing Walk [4.517039147450688]
ニューラルネットワークモデルの大域的および局所的線形緩和を探索し,よりスケーラブルな解法を提案する。
我々の解法は最先端のMILP解法と競合し、それ以前には入力、深さ、ニューロン数の増加によるより良い解法を導出する。
論文 参考訳(メタデータ) (2024-01-07T11:15:00Z) - No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-20T22:10:40Z) - Acceleration techniques for optimization over trained neural network
ensembles [1.0323063834827415]
本研究では, 線形単位活性化の補正されたフィードフォワードニューラルネットワークを用いて, 目的関数をモデル化する最適化問題について検討する。
本稿では,1つのニューラルネットワークを最適化するために,既存のBig-M$の定式化をベースとした混合整数線形プログラムを提案する。
論文 参考訳(メタデータ) (2021-12-13T20:50:54Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - DEBOSH: Deep Bayesian Shape Optimization [48.80431740983095]
形状最適化に適した不確実性に基づく新しい手法を提案する。
効果的なBOを可能にし、その結果の形状の質を最先端のアプローチを超えて向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:01:42Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z) - Efficient and Sparse Neural Networks by Pruning Weights in a
Multiobjective Learning Approach [0.0]
本稿では、予測精度とネットワーク複雑性を2つの個別目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。
模範的畳み込みニューラルネットワークの予備的な数値結果から、ニューラルネットワークの複雑性の大幅な低減と精度の低下が可能であることが確認された。
論文 参考訳(メタデータ) (2020-08-31T13:28:03Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。