論文の概要: Temperature check: theory and practice for training models with
softmax-cross-entropy losses
- arxiv url: http://arxiv.org/abs/2010.07344v1
- Date: Wed, 14 Oct 2020 18:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:46:06.198325
- Title: Temperature check: theory and practice for training models with
softmax-cross-entropy losses
- Title(参考訳): 温度チェック:ソフトマックス-クロスエントロピー損失のあるトレーニングモデルの理論と実践
- Authors: Atish Agarwala, Jeffrey Pennington, Yann Dauphin, Sam Schoenholz
- Abstract要約: ソフトマックス-クロスエントロピー損失を学習したモデルに対する早期学習理論を開発する。
一般化性能は温度に大きく依存するが,初期ロジット等級には弱い。
- 参考スコア(独自算出の注目度): 21.073524360170833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The softmax function combined with a cross-entropy loss is a principled
approach to modeling probability distributions that has become ubiquitous in
deep learning. The softmax function is defined by a lone hyperparameter, the
temperature, that is commonly set to one or regarded as a way to tune model
confidence after training; however, less is known about how the temperature
impacts training dynamics or generalization performance. In this work we
develop a theory of early learning for models trained with
softmax-cross-entropy loss and show that the learning dynamics depend crucially
on the inverse-temperature $\beta$ as well as the magnitude of the logits at
initialization, $||\beta{\bf z}||_{2}$. We follow up these analytic results
with a large-scale empirical study of a variety of model architectures trained
on CIFAR10, ImageNet, and IMDB sentiment analysis. We find that generalization
performance depends strongly on the temperature, but only weakly on the initial
logit magnitude. We provide evidence that the dependence of generalization on
$\beta$ is not due to changes in model confidence, but is a dynamical
phenomenon. It follows that the addition of $\beta$ as a tunable hyperparameter
is key to maximizing model performance. Although we find the optimal $\beta$ to
be sensitive to the architecture, our results suggest that tuning $\beta$ over
the range $10^{-2}$ to $10^1$ improves performance over all architectures
studied. We find that smaller $\beta$ may lead to better peak performance at
the cost of learning stability.
- Abstract(参考訳): ソフトマックス関数とクロスエントロピー損失の組み合わせは、ディープラーニングにおいてユビキタスになった確率分布をモデル化するための原則的アプローチである。
ソフトマックス関数は、訓練後のモデルの信頼性を調整する方法として一般的に1つに設定される唯一のハイパーパラメータ(温度)によって定義されるが、温度がトレーニング力学や一般化性能にどのように影響するかは分かっていない。
本研究では,ソフトマックスクロスエントロピー損失をトレーニングしたモデルの早期学習の理論を考案し,学習のダイナミクスが,初期化時のロジットの大きさである |||\beta{\bf z}||_{2}$ と逆温度$\beta$ に依存することを示した。
CIFAR10, ImageNet, IMDBの感情分析に基づいて学習した各種モデルアーキテクチャについて, 大規模な実証的研究を行った。
一般化性能は温度に大きく依存するが,初期ロジットの大きさは弱い。
我々は、$\beta$への一般化の依存はモデル信頼性の変化によるものではなく、動的現象であることを示す。
チューニング可能なハイパーパラメータとして$\beta$を追加することが、モデルパフォーマンスを最大化するための鍵である。
アーキテクチャに敏感な最適な$\beta$が見つかるが、我々の結果は、研究対象のアーキテクチャすべてに対して、$\beta$が10^{-2}$から10^1$にチューニングされることを示唆している。
より小さな$\beta$は、学習安定性を犠牲にしてパフォーマンスを向上させる可能性がある。
関連論文リスト
- Gradient dynamics for low-rank fine-tuning beyond kernels [9.275532709125242]
学生-教師設定における低ランク微調整について検討する。
基本モデルにおける行列であり,オンライン勾配勾配で訓練された学生モデルが,教師に収束する,という軽微な仮定の下で証明する。
論文 参考訳(メタデータ) (2024-11-23T00:00:28Z) - The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Towards Alternative Techniques for Improving Adversarial Robustness:
Analysis of Adversarial Training at a Spectrum of Perturbations [5.18694590238069]
逆行訓練(AT)とその変種は、逆行性摂動に対するニューラルネットワークの堅牢性を改善する進歩を先導している。
私たちは、$epsilon$の値のスペクトルに基づいてトレーニングされたモデルに焦点を当てています。
ATの代替改善は、そうでなければ1ドル(約1万2000円)も出なかったでしょう。
論文 参考訳(メタデータ) (2022-06-13T22:01:21Z) - Revisiting Model-based Value Expansion [35.55280687116388]
モデルに基づく値展開手法は,値関数目標の品質向上と値関数学習の有効性を約束する。
しかし、これらの手法は、概念上より単純な1ステップの値関数ターゲットを持つDynaスタイルのアルゴリズムにより、これまでにも性能が向上している。
本研究は,実際に価値拡張手法の失敗の原因を明らかにするための,徹底的な実証的研究である。
論文 参考訳(メタデータ) (2022-03-28T11:21:49Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。