論文の概要: Model Cascading: Towards Jointly Improving Efficiency and Accuracy of
NLP Systems
- arxiv url: http://arxiv.org/abs/2210.05528v1
- Date: Tue, 11 Oct 2022 15:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:02:04.294809
- Title: Model Cascading: Towards Jointly Improving Efficiency and Accuracy of
NLP Systems
- Title(参考訳): モデルカスケード:NLPシステムの効率化と精度向上に向けて
- Authors: Neeraj Varshney and Chitta Baral
- Abstract要約: 本稿では,様々なキャパシティのモデル集合を利用して予測を正確にかつ効率的に出力する簡単な手法である「モデルカスケーディング」の爆発的研究について述べる。
カスケードは計算効率と予測精度の両方を改善することを示す。
- 参考スコア(独自算出の注目度): 24.572043878403353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do all instances need inference through the big models for a correct
prediction? Perhaps not; some instances are easy and can be answered correctly
by even small capacity models. This provides opportunities for improving the
computational efficiency of systems. In this work, we present an explorative
study on 'model cascading', a simple technique that utilizes a collection of
models of varying capacities to accurately yet efficiently output predictions.
Through comprehensive experiments in multiple task settings that differ in the
number of models available for cascading (K value), we show that cascading
improves both the computational efficiency and the prediction accuracy. For
instance, in K=3 setting, cascading saves up to 88.93% computation cost and
consistently achieves superior prediction accuracy with an improvement of up to
2.18%. We also study the impact of introducing additional models in the cascade
and show that it further increases the efficiency improvements. Finally, we
hope that our work will facilitate development of efficient NLP systems making
their widespread adoption in real-world applications possible.
- Abstract(参考訳): すべてのインスタンスは、正しい予測のために大きなモデルを通して推論が必要か?
いくつかのインスタンスは簡単で、小さなキャパシティモデルでも正しく答えられる。
これはシステムの計算効率を改善する機会を提供する。
本研究では,様々なキャパシティのモデルの集合を用いて,高精度かつ効率的に予測を行う簡易な手法である「モデルカスケード」について検討する。
カスケーディングで利用可能なモデルの数(K値)が異なる複数のタスク設定における包括的な実験を通して、カスケーディングが計算効率と予測精度の両方を改善することを示す。
例えば、K=3設定では、カスケードは最大88.93%の計算コストを節約し、最大2.18%の改善で常に優れた予測精度を達成する。
また,カスケードに追加モデルを導入する効果について検討し,効率の向上がさらに促進されることを示した。
最後に,本研究により,実世界のアプリケーションに広く採用できる効率的なNLPシステムの開発が促進されることを期待する。
関連論文リスト
- Efficient Ternary Weight Embedding Model: Bridging Scalability and Performance [15.877771709013743]
本研究では,3次重み付き埋め込みモデルのためのファインタニングフレームワークを提案する。
プレトレーニング埋込みモデルに三元化を適用するため, 線形層の三元重みを確定するために, 自己学習型知識蒸留を導入する。
パブリックテキストとビジョンデータセットに関する広範な実験により、テナライズされたモデルは、有効性を犠牲にすることなく、低メモリ使用量を消費することを示した。
論文 参考訳(メタデータ) (2024-11-23T03:44:56Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Towards Continually Learning Application Performance Models [1.2278517240988065]
機械学習ベースのパフォーマンスモデルは、重要なジョブスケジューリングとアプリケーションの最適化決定を構築するために、ますます使われています。
伝統的に、これらのモデルは、より多くのサンプルが時間とともに収集されるため、データ分布が変化しないと仮定する。
本研究では,分布のドリフトを考慮した継続的な学習性能モデルを構築し,破滅的な忘れを軽減し,一般化性を向上させる。
論文 参考訳(メタデータ) (2023-10-25T20:48:46Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - HERO: Hessian-Enhanced Robust Optimization for Unifying and Improving
Generalization and Quantization Performance [43.478851400266926]
我々は、勾配に基づく学習プロセスを通じて、ヘッセン固有値を最小限に抑えるため、ヘッセンで強化された頑健な最適化手法HEROを提案する。
HEROは試験精度を最大3.8%向上させ、80%のトレーニングラベル摂動で最大30%高い精度を達成し、幅広い精度で最高のトレーニング後の量子化精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T16:32:58Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient Action Recognition Using Confidence Distillation [9.028144245738247]
本研究では,教師の不確実性の表現を学生に教える信頼性蒸留フレームワークを提案する。
我々は3つの行動認識データセットに関する広範な実験を行い、我々のフレームワークが、行動認識精度(最大20%)と計算効率(40%以上)の大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-09-05T18:25:49Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。