論文の概要: Dropout Inference with Non-Uniform Weight Scaling
- arxiv url: http://arxiv.org/abs/2204.13047v1
- Date: Wed, 27 Apr 2022 16:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:07:38.982288
- Title: Dropout Inference with Non-Uniform Weight Scaling
- Title(参考訳): 非均一ウェイトスケーリングによるドロップアウト推論
- Authors: Zhaoyuan Yang and Arpit Jain
- Abstract要約: 正規化としてのドロップアウトは、ニューラルネットワークのトレーニングの過度な適合を防ぐために広く使用されている。
本研究では,いくつかのサブモデルが高バイアスモデルに近づき,一様でないウェイトスケーリングが推論の近似として優れているシナリオを実証する。
- 参考スコア(独自算出の注目度): 6.726255259929496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dropout as regularization has been used extensively to prevent overfitting
for training neural networks. During training, units and their connections are
randomly dropped, which could be considered as sampling many different
submodels from the original model. At test time, weight scaling and Monte Carlo
approximation are two widely applied approaches to approximate the outputs.
Both approaches work well practically when all submodels are low-bias complex
learners. However, in this work, we demonstrate scenarios where some submodels
behave closer to high-bias models and a non-uniform weight scaling is a better
approximation for inference.
- Abstract(参考訳): 正規化としてのドロップアウトは、ニューラルネットワークのトレーニングの過剰フィットを防ぐために広く使われている。
トレーニング中、ユニットとその接続はランダムにドロップされ、元のモデルから多くの異なるサブモデルをサンプリングすると見なされる。
テスト時、重量スケーリングとモンテカルロ近似は出力を近似する2つの広く応用されたアプローチである。
どちらのアプローチも、すべてのサブモデルが低バイアスの複雑な学習者である場合にうまく機能する。
しかし、本研究では、いくつかのサブモデルが高バイアスモデルに近づき、一様でないウェイトスケーリングが推論のより優れた近似となるシナリオを実証する。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [86.9540615081759]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Optimal Model Averaging: Towards Personalized Collaborative Learning [0.0]
連合学習では、参加ノード間のデータや目的の違いが、各ノードに対してパーソナライズされた機械学習モデルをトレーニングするためのアプローチを動機付けている。
そのようなアプローチの1つは、局所的に訓練されたモデルとグローバルモデルの間の重み付き平均化である。
局所モデルと比較して予測される2乗誤差を減少させるモデル平均化の正の量が常に存在することがわかった。
論文 参考訳(メタデータ) (2021-10-25T13:33:20Z) - No One Representation to Rule Them All: Overlapping Features of Training
Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文 参考訳(メタデータ) (2021-10-20T21:29:49Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - Detangling robustness in high dimensions: composite versus
model-averaged estimation [11.658462692891355]
ロバスト法は、実際にはユビキタスであるが、正規化推定や高次元の文脈ではまだ完全には理解されていない。
本稿では,これらの設定におけるロバスト性をさらに研究し,予測に焦点を当てたツールボックスを提供する。
論文 参考訳(メタデータ) (2020-06-12T20:40:15Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。