論文の概要: Predicting on the Edge: Identifying Where a Larger Model Does Better
- arxiv url: http://arxiv.org/abs/2202.07652v1
- Date: Tue, 15 Feb 2022 18:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 13:19:18.663981
- Title: Predicting on the Edge: Identifying Where a Larger Model Does Better
- Title(参考訳): エッジの予測:より大型のモデルが優れているかを特定する
- Authors: Taman Narayan, Heinrich Jiang, Sen Zhao, Sanjiv Kumar
- Abstract要約: 小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
- 参考スコア(独自算出の注目度): 61.793778186198864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much effort has been devoted to making large and more accurate models, but
relatively little has been put into understanding which examples are benefiting
from the added complexity. In this paper, we demonstrate and analyze the
surprisingly tight link between a model's predictive uncertainty on individual
examples and the likelihood that larger models will improve prediction on them.
Through extensive numerical studies on the T5 encoder-decoder architecture, we
show that large models have the largest improvement on examples where the small
model is most uncertain. On more certain examples, even those where the small
model is not particularly accurate, large models are often unable to improve at
all, and can even perform worse than the smaller model. Based on these
findings, we show that a switcher model which defers examples to a larger model
when a small model is uncertain can achieve striking improvements in
performance and resource usage. We also explore committee-based uncertainty
metrics that can be more effective but less practical.
- Abstract(参考訳): 大規模で正確なモデルの構築に多くの努力が注がれているが、どの例が追加の複雑さの恩恵を受けているかを理解することは比較的少ない。
本稿では,個々の事例におけるモデル予測の不確実性と,より大きなモデルが予測を改善する可能性との驚くほど厳密な関係を実証し,解析する。
T5エンコーダ・デコーダアーキテクチャに関する広範な数値研究を通じて,小型モデルが最も不確実な例において,大規模モデルが最も改善されていることを示す。
より特定の例では、小さなモデルが特に正確でない場合でも、大きなモデルは改善できないことが多く、小さなモデルよりもパフォーマンスが悪くなります。
これらの結果から,小モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルが,性能と資源利用の大幅な向上を達成できることが示唆された。
我々はまた、より効果的だが実用的でない委員会ベースの不確実性指標についても検討する。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Effects of Scale on Language Model Robustness [7.725206196110384]
逆向きに訓練された大規模モデルは、より小さなモデルと比較して、訓練中に見えないような攻撃に対して、より速く、より良く一般化できることが示される。
また、計算量の増加による悪用/防御のバランスを分析し、ある設定で同等性を見つけ、他の設定で悪用する利点を見つけます。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。