論文の概要: When in Doubt, Summon the Titans: Efficient Inference with Large Models
- arxiv url: http://arxiv.org/abs/2110.10305v1
- Date: Tue, 19 Oct 2021 22:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 05:49:48.342360
- Title: When in Doubt, Summon the Titans: Efficient Inference with Large Models
- Title(参考訳): ダウトの時、タイタンのサムモン:大型モデルによる効率的な推論
- Authors: Ankit Singh Rawat, Manzil Zaheer, Aditya Krishna Menon, Amr Ahmed,
Sanjiv Kumar
- Abstract要約: 本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
- 参考スコア(独自算出の注目度): 80.2673230098021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling neural networks to "large" sizes, with billions of parameters, has
been shown to yield impressive results on many challenging problems. However,
the inference cost incurred by such large models often prevents their
application in most real-world settings. In this paper, we propose a two-stage
framework based on distillation that realizes the modelling benefits of the
large models, while largely preserving the computational benefits of inference
with more lightweight models. In a nutshell, we use the large teacher models to
guide the lightweight student models to only make correct predictions on a
subset of "easy" examples; for the "hard" examples, we fall-back to the
teacher. Such an approach allows us to efficiently employ large models in
practical scenarios where easy examples are much more frequent than rare hard
examples. Our proposed use of distillation to only handle easy instances allows
for a more aggressive trade-off in the student size, thereby reducing the
amortized cost of inference and achieving better accuracy than standard
distillation. Empirically, we demonstrate the benefits of our approach on both
image classification and natural language processing benchmarks.
- Abstract(参考訳): 数十億のパラメータを持つ「大きな」サイズにニューラルネットワークをスケールすることは、多くの困難な問題に対して印象的な結果をもたらすことが示されている。
しかし、そのような大きなモデルによって引き起こされる推論コストは、多くの場合、実際のほとんどの設定でアプリケーションを妨げます。
本稿では,より軽量なモデルによる推論の計算的利点を保ちながら,大規模モデルのモデリング的利点を実現する蒸留に基づく2段階のフレームワークを提案する。
簡単に言うと、私たちは、大きな教師モデルを使って、軽量の学生モデルをガイドし、"簡単"な例のサブセットでのみ正確な予測を行う。
このようなアプローチにより、簡単な例が稀なハード例よりもはるかに頻度の高い実践シナリオにおいて、大きなモデルを効率的に利用することが可能になります。
提案手法では, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論コストの低減と標準蒸留よりも精度の向上が期待できる。
画像分類と自然言語処理ベンチマークにおけるアプローチの利点を実証的に示す。
関連論文リスト
- Debias the Black-box: A Fair Ranking Framework via Knowledge
Distillation [26.60241524303918]
本稿では,知識蒸留に基づく公正な情報検索フレームワークを提案する。
このフレームワークは、モデルサイズを著しく減少させながら、モデルの露出ベースの公正性を改善することができる。
また、高いレコメンデーション効率を維持しながら、フェアネスのパフォーマンスを15%46%向上させる。
論文 参考訳(メタデータ) (2022-08-24T15:59:58Z) - Easy Batch Normalization [73.89838982331453]
簡単な例は、機械学習モデルが高い信頼性で正しく分類するサンプルである。
本稿では,標準および堅牢な精度向上のための簡単な例として,補助バッチ正規化を提案する。
論文 参考訳(メタデータ) (2022-07-18T21:01:09Z) - Dropout Inference with Non-Uniform Weight Scaling [6.726255259929496]
正規化としてのドロップアウトは、ニューラルネットワークのトレーニングの過度な適合を防ぐために広く使用されている。
本研究では,いくつかのサブモデルが高バイアスモデルに近づき,一様でないウェイトスケーリングが推論の近似として優れているシナリオを実証する。
論文 参考訳(メタデータ) (2022-04-27T16:41:12Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。