論文の概要: Hyperparameter Loss Surfaces Are Simple Near their Optima
- arxiv url: http://arxiv.org/abs/2510.02721v1
- Date: Fri, 03 Oct 2025 04:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.268034
- Title: Hyperparameter Loss Surfaces Are Simple Near their Optima
- Title(参考訳): ハイパーパラメーターの損失表面はオプティマイマ付近でシンプル
- Authors: Nicholas Lourie, He He, Kyunghyun Cho,
- Abstract要約: 複素損失曲面を明らかにするために,ランダム探索に基づく手法を開発した。
この体制の中では、ランダム検索から得られる最良のスコアは、我々が発見する新しい分布である。
これらの特徴から、その収束を説明・外挿できるランダム探索の新しい法則を導出する。
これらの新しいツールは、最高のパフォーマンスのための信頼区間などの新しい分析を可能にする。
- 参考スコア(独自算出の注目度): 50.74035795378814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameters greatly impact models' capabilities; however, modern models are too large for extensive search. Instead, researchers design recipes that train well across scales based on their understanding of the hyperparameters. Despite this importance, few tools exist for understanding the hyperparameter loss surface. We discover novel structure in it and propose a new theory yielding such tools. The loss surface is complex, but as you approach the optimum simple structure emerges. It becomes characterized by a few basic features, like its effective dimension and the best possible loss. To uncover this asymptotic regime, we develop a novel technique based on random search. Within this regime, the best scores from random search take on a new distribution we discover. Its parameters are exactly the features defining the loss surface in the asymptotic regime. From these features, we derive a new asymptotic law for random search that can explain and extrapolate its convergence. These new tools enable new analyses, such as confidence intervals for the best possible performance or determining the effective number of hyperparameters. We make these tools available at https://github.com/nicholaslourie/opda .
- Abstract(参考訳): ハイパーパラメータはモデルの能力に大きな影響を及ぼすが、現代のモデルは大規模な探索には大きすぎる。
代わりに研究者たちは、ハイパーパラメーターの理解に基づいて、スケールにわたってうまく訓練するレシピを設計する。
この重要性にもかかわらず、ハイパーパラメータ損失面を理解するためのツールはほとんど存在しない。
我々はその中に新しい構造を発見し、そのような道具を産み出す新しい理論を提案する。
損失面は複雑だが、最適な単純な構造に近づくと現れる。
有効次元や可能な限りの損失など、いくつかの基本的な特徴によって特徴付けられる。
この漸近的体制を明らかにするために,ランダム探索に基づく新しい手法を開発した。
この体制の中では、ランダム検索から得られる最良のスコアは、我々が発見する新しい分布である。
そのパラメータはまさに漸近状態における損失面を定義する特徴である。
これらの特徴から、ランダム探索のための新しい漸近法則が導出され、その収束を説明することができる。
これらの新しいツールは、最高のパフォーマンスのための信頼区間や、効果的なハイパーパラメータ数の決定など、新しい分析を可能にする。
これらのツールはhttps://github.com/nicholaslourie/opdaで公開しています。
関連論文リスト
- Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function [24.457000214575245]
固定問題インスタンス上での実用関数の不連続性と発振を特徴付ける新しい手法を提案する。
これは、実用関数の族における学習理論の複雑さが有界であることを示すのに使うことができる。
論文 参考訳(メタデータ) (2025-01-23T15:10:51Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Should We Learn Most Likely Functions or Parameters? [51.133793272222874]
モデルとデータによって示唆される最も可能性の高い関数を直接推定する利点と欠点について検討する。
関数空間MAP推定は, より平坦な最小化, 一般化, オーバーフィッティングの改善につながる可能性がある。
論文 参考訳(メタデータ) (2023-11-27T16:39:55Z) - Proximity to Losslessly Compressible Parameters [0.0]
ニューラルネットワークでは、隠れたユニットが少なくて同じ関数を実装できる。
単層双曲型タンジェントネットワークの設定において、パラメータのランクを隠蔽単位の最小数として定義する。
パラメータの近位を厳密に拘束する問題はNP完全であることを示す。
論文 参考訳(メタデータ) (2023-06-05T12:29:34Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。