論文の概要: Wide-minima Density Hypothesis and the Explore-Exploit Learning Rate
Schedule
- arxiv url: http://arxiv.org/abs/2003.03977v5
- Date: Tue, 1 Jun 2021 05:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 07:56:55.922504
- Title: Wide-minima Density Hypothesis and the Explore-Exploit Learning Rate
Schedule
- Title(参考訳): 広小密度仮説と探索的拡張学習率スケジュール
- Authors: Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian
Sivathanu
- Abstract要約: 我々は、広いミニマの密度が狭いミニマの密度よりも低いという新しい仮説の実証的な証拠を提供する。
調査・公開スケジュールは,当初のトレーニング予算を用いて,最大0.84%の絶対精度を達成できることを示す。
例えば、ハイパフォーマンスモデルの学習率スケジュールを変更するだけで、IWSLT'14データセットのSOTA(State-of-the-art)精度を実現する。
- 参考スコア(独自算出の注目度): 9.857760395337603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several papers argue that wide minima generalize better than narrow minima.
In this paper, through detailed experiments that not only corroborate the
generalization properties of wide minima, we also provide empirical evidence
for a new hypothesis that the density of wide minima is likely lower than the
density of narrow minima. Further, motivated by this hypothesis, we design a
novel explore-exploit learning rate schedule. On a variety of image and natural
language datasets, compared to their original hand-tuned learning rate
baselines, we show that our explore-exploit schedule can result in either up to
0.84% higher absolute accuracy using the original training budget or up to 57%
reduced training time while achieving the original reported accuracy. For
example, we achieve state-of-the-art (SOTA) accuracy for IWSLT'14 (DE-EN)
dataset by just modifying the learning rate schedule of a high performing
model.
- Abstract(参考訳): いくつかの論文では、幅の広いミニマは狭いミニマよりも一般化されていると主張している。
本稿では,広大極小の一般化特性を共生する詳細な実験を通じて,広大極小の密度が狭小極小の密度よりも低いという新しい仮説の実証的な証拠を提供する。
さらに,この仮説に動機づけられ,新しい探索・探索学習率スケジュールを設計する。
様々な画像や自然言語データセットにおいて,学習のベースラインを手作業で調整した場合と比較して,探索・探索のスケジュールは最大0.84%高い絶対精度が得られるか,最大57%のトレーニング時間を短縮し,元の報告精度を達成することができることを示した。
例えば、ハイパフォーマンスモデルの学習率スケジュールを変更するだけで、IWSLT'14(DE-EN)データセットの最先端(SOTA)精度を実現する。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。
ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。
シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文 参考訳(メタデータ) (2024-02-20T11:26:42Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Revisiting Sample Size Determination in Natural Language Understanding [18.637079595450366]
特定のモデルのパフォーマンスを達成するために、どれだけのデータポイントをラベル付けする必要があるかを正確に知ることは、アノテーションの全体的な予算を削減するための有益なステップである。
我々は,少量のトレーニングサンプルに基づいて,達成可能なモデルの最大性能を予測するための,シンプルで効果的な手法を導出した。
論文 参考訳(メタデータ) (2023-07-01T16:08:52Z) - On Measuring the Intrinsic Few-Shot Hardness of Datasets [49.37562545777455]
トレーニング済みのモデルに対して、データセットに固有の数ショットの硬さを示す。
そこで我々は,数発の学習が可能な直感をとらえる,シンプルで軽量な尺度"Spread"を提案する。
我々の測定基準は、既存の硬さの概念に比べて数発の硬さを考慮し、計算が8~100倍高速である。
論文 参考訳(メタデータ) (2022-11-16T18:53:52Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - Worst Case Matters for Few-Shot Recognition [27.023352955311502]
少ないショット認識は、カテゴリ毎に非常に少ない(例:1または5)画像を持つ認識モデルを学ぶ。
現在の数発の学習方法は、多くのエピソードの平均精度を改善することに焦点を当てている。
現実のアプリケーションでは、多くではなく1回だけ試すことがよくあるので、最悪のケースの精度を最大化することは、平均的な精度を最大化することよりも重要である、と私たちは主張する。
論文 参考訳(メタデータ) (2022-03-13T05:39:40Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。