論文の概要: Finding the SWEET Spot: Analysis and Improvement of Adaptive Inference
in Low Resource Settings
- arxiv url: http://arxiv.org/abs/2306.02307v1
- Date: Sun, 4 Jun 2023 09:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:35:37.238409
- Title: Finding the SWEET Spot: Analysis and Improvement of Adaptive Inference
in Low Resource Settings
- Title(参考訳): SWEETスポットの探索:低資源環境における適応推論の解析と改善
- Authors: Daniel Rotem, Michael Hassid, Jonathan Mamou, Roy Schwartz
- Abstract要約: トレーニングデータに制限がある場合、適応推論の2つの主要なアプローチであるEarly-ExitとMulti-Modelを比較した。
Early-Exitは、マルチモデルアプローチのオーバーヘッドのために、より高速なトレードオフを提供する。
本稿では,SWEETを提案する。SWEETは,各分類器に独自のモデル重みの集合を割り当てる初期出力微調整法である。
- 参考スコア(独自算出の注目度): 6.463202903076821
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adaptive inference is a simple method for reducing inference costs. The
method works by maintaining multiple classifiers of different capacities, and
allocating resources to each test instance according to its difficulty. In this
work, we compare the two main approaches for adaptive inference, Early-Exit and
Multi-Model, when training data is limited. First, we observe that for models
with the same architecture and size, individual Multi-Model classifiers
outperform their Early-Exit counterparts by an average of 2.3%. We show that
this gap is caused by Early-Exit classifiers sharing model parameters during
training, resulting in conflicting gradient updates of model weights. We find
that despite this gap, Early-Exit still provides a better speed-accuracy
trade-off due to the overhead of the Multi-Model approach. To address these
issues, we propose SWEET (Separating Weights in Early Exit Transformers), an
Early-Exit fine-tuning method that assigns each classifier its own set of
unique model weights, not updated by other classifiers. We compare SWEET's
speed-accuracy curve to standard Early-Exit and Multi-Model baselines and find
that it outperforms both methods at fast speeds while maintaining comparable
scores to Early-Exit at slow speeds. Moreover, SWEET individual classifiers
outperform Early-Exit ones by 1.1% on average. SWEET enjoys the benefits of
both methods, paving the way for further reduction of inference costs in NLP.
- Abstract(参考訳): 適応推論は推論コストを削減する単純な方法である。
この方法は、異なる能力の複数の分類器を維持し、その困難さに応じて各テストインスタンスにリソースを割り当てる。
本研究では,学習データに制限がある場合,適応推論の2つの主要なアプローチである早期実行とマルチモデルを比較した。
まず、同じアーキテクチャとサイズを持つモデルに対して、個々のマルチモデル分類器は、平均2.3%の早期指数よりも優れていることを観察する。
このギャップは、トレーニング中にモデルパラメータを共有するアーリーエクイット分類器が原因で、モデル重み付けの勾配更新が相反することを示している。
このギャップにもかかわらず、アーリーエクイットは、マルチモデルアプローチのオーバーヘッドのため、より優れた速度・精度のトレードオフを提供する。
これらの問題に対処するため,我々は,各分類器に独自のモデル重みのセットを割り当て,他の分類器では更新しない,初期出力の微調整手法であるs sweet (separating weights in early exit transformers)を提案する。
sweetのspeed-accuracy曲線を標準のearly-exitおよびmulti-modelベースラインと比較し、高速で両方のメソッドを上回り、遅い速度でearly-exitと比較した。
さらに、SWEETの個々の分類器は、Early-Exitを平均1.1%上回る。
SWEETは両方の手法の利点を享受し、NLPにおける推論コストをさらに削減する道を開く。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Bayesian Few-Shot Classification with One-vs-Each P\'olya-Gamma
Augmented Gaussian Processes [7.6146285961466]
FSC(Few-shot Classification)は、人間のような機械学習への道のりの重要なステップである。
P'olya-Gamma augmentation と one-vs-each softmax approximation の新たな組み合わせを提案する。
標準的な数ショット分類ベンチマークと数ショットドメイン転送タスクの両方において、精度の向上と不確かさの定量化を実証した。
論文 参考訳(メタデータ) (2020-07-20T19:10:41Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。