論文の概要: Accelerating Large Language Model Inference with Self-Supervised Early Exits
- arxiv url: http://arxiv.org/abs/2407.21082v1
- Date: Tue, 30 Jul 2024 07:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:35:32.246582
- Title: Accelerating Large Language Model Inference with Self-Supervised Early Exits
- Title(参考訳): 自己監督型早期出力による大規模言語モデル推論の高速化
- Authors: Florian Valade,
- Abstract要約: 本稿では,大規模・事前学習型言語モデル(LLM)における推論を高速化する新しい手法を提案する。
本稿では,既存の変圧器層上に早期出口「頭部」を統合し,信頼度基準に基づく条件付き項化を容易にすることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel technique for accelerating inference in large, pre-trained language models (LLMs) by introducing early exits during inference. The computational demands of these models, used across a wide range of applications, can be substantial. By capitalizing on the inherent variability in token complexity, our approach enables selective acceleration of the inference process. Specifically, we propose the integration of early exit ''heads'' atop existing transformer layers, which facilitate conditional terminations based on a confidence metric. These heads are trained in a self-supervised manner using the model's own predictions as training data, thereby eliminating the need for additional annotated data. The confidence metric, established using a calibration set, ensures a desired level of accuracy while enabling early termination when confidence exceeds a predetermined threshold. Notably, our method preserves the original accuracy and reduces computational time on certain tasks, leveraging the existing knowledge of pre-trained LLMs without requiring extensive retraining. This lightweight, modular modification has the potential to greatly enhance the practical usability of LLMs, particularly in applications like real-time language processing in resource-constrained environments.
- Abstract(参考訳): 本稿では,大規模・事前学習型言語モデル(LLM)における推論を高速化するための新しい手法を提案する。
これらのモデルの計算要求は、広範囲のアプリケーションで使用されるが、かなり大きい。
トークンの複雑さに固有の変動性を利用することで,提案手法は推論プロセスの選択的加速を可能にする。
具体的には,既存の変圧器層上に早期出口「頭」を統合することを提案する。
これらのヘッドは、モデル自身の予測をトレーニングデータとして、自己教師型の方法で訓練されるため、追加の注釈付きデータを必要としない。
キャリブレーションセットを用いて確立された信頼度計は、信頼度が所定の閾値を超えた場合に早期終了を可能とし、所望の精度を確保する。
特に,本手法は元の精度を保ち,既存の学習済みLLMの知識を活用して計算時間を短縮する。
この軽量でモジュラーな修正は、特に資源制約のある環境におけるリアルタイム言語処理のようなアプリケーションにおいて、LLMの実用性を大幅に向上させる可能性がある。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Adaptive scheduling for adaptive sampling in POS taggers construction [0.27624021966289597]
音声タグ作成における機械学習の新たな手法として適応的サンプリングのための適応的スケジューリングを提案する。
本研究では,関数モデルとともに幾何学的に学習曲線の形状を分析し,任意のタイミングで学習曲線を増減する。
また,評価の一時的なインフレーションを受けるトレーニングデータベースの領域に注意を払い,サンプリングの堅牢性も向上する。
論文 参考訳(メタデータ) (2024-02-04T15:02:17Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。
我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文 参考訳(メタデータ) (2022-05-26T20:50:58Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。