論文の概要: Knowledge Distillation for Efficient Sequences of Training Runs
- arxiv url: http://arxiv.org/abs/2303.06480v1
- Date: Sat, 11 Mar 2023 19:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:41:11.614833
- Title: Knowledge Distillation for Efficient Sequences of Training Runs
- Title(参考訳): 効率的な連関訓練のための知識蒸留
- Authors: Xingyu Liu, Alex Leonardi, Lu Yu, Chris Gilmer-Hill, Matthew Leavitt,
Jonathan Frankle
- Abstract要約: 我々は、知識蒸留(KD)を用いて、将来のランニングのコストを削減するために、前回のランニングに投資した計算を活用できる問題について検討する。
我々は、KDのオーバーヘッドを考慮しても、KDを以前の実行から拡張することで、これらのモデルのトレーニングに要する時間を劇的に削減できることを見出した。
- 参考スコア(独自算出の注目度): 20.68831781463113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many practical scenarios -- like hyperparameter search or continual
retraining with new data -- related training runs are performed many times in
sequence. Current practice is to train each of these models independently from
scratch. We study the problem of exploiting the computation invested in
previous runs to reduce the cost of future runs using knowledge distillation
(KD). We find that augmenting future runs with KD from previous runs
dramatically reduces the time necessary to train these models, even taking into
account the overhead of KD. We improve on these results with two strategies
that reduce the overhead of KD by 80-90% with minimal effect on accuracy and
vast pareto-improvements in overall cost. We conclude that KD is a promising
avenue for reducing the cost of the expensive preparatory work that precedes
training final models in practice.
- Abstract(参考訳): ハイパーパラメータ検索や新しいデータによる連続的再トレーニングなど、多くの実践シナリオでは、関連するトレーニングの実行が連続的に何度も実行される。
現在のプラクティスは、これらのモデルをスクラッチから独立してトレーニングすることです。
我々は, 知識蒸留(KD)を用いて, 将来の運転コストを削減するために, 過去の運転に投じられた計算を利用する問題について検討した。
kdのオーバーヘッドを考慮しても、前回の走行でのkdの強化によって、これらのモデルのトレーニングに要する時間を劇的に削減できることが分かりました。
これらの結果に対し,kdのオーバーヘッドを80~90%削減し,精度と総コストの大幅な改善に最小限の影響で改善した。
我々は、kdは、実際に最終モデルの訓練に先行する高価な準備作業のコストを削減するための有望な道であると結論づける。
関連論文リスト
- Optimizing Deep Reinforcement Learning for American Put Option Hedging [0.0]
本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。
その結果,学習エピソード数が多い場合の学習率や,学習エピソードが少ない場合の学習率の低下など,特定の組み合わせを避けることの重要性が強調された。
本稿では,シングルトレインと週間トレインのDRLエージェントが,取引コスト1%と3%でブラックスコールズデルタ法より優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-14T13:41:44Z) - Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget [2.53740603524637]
LM事前トレーニングのスケーリング法則は、より小さなモデルがより多くのデータでトレーニングされた場合、より大きなモデルとのギャップを埋める可能性があることを示唆している。
マスク言語モデリング(MLM)のいくつかのKD戦略に対して,スクラッチからの事前学習を公平な実験で比較した。
固定計算予算の下でデータを繰り返す必要がある場合、KDはスクラッチから事前学習よりも大きな利得が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:40:35Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - StableKD: Breaking Inter-block Optimization Entanglement for Stable Knowledge Distillation [11.0282391137938]
IBOEを破り、より安定した最適化を実現する新しいKDフレームワークであるStableKDを提案する。
他のKD手法と比較して、我々の単純で効果的なStableKDはモデルの精度を1%向上させ、収束を最大10倍に高速化し、トレーニングデータのわずか40%でそれらを上回ります。
論文 参考訳(メタデータ) (2023-12-20T17:46:48Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。