論文の概要: DE$^3$-BERT: Distance-Enhanced Early Exiting for BERT based on
Prototypical Networks
- arxiv url: http://arxiv.org/abs/2402.05948v1
- Date: Sat, 3 Feb 2024 15:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 14:41:43.265486
- Title: DE$^3$-BERT: Distance-Enhanced Early Exiting for BERT based on
Prototypical Networks
- Title(参考訳): DE$^3$-BERT: プロトタイプネットワークに基づくBERTの距離拡張早期実行
- Authors: Jianing He, Qi Zhang, Weiping Ding, Duoqian Miao, Jun Zhao, Liang Hu,
Longbing Cao
- Abstract要約: BERT(DE$3$-BERT)のための新しい遠隔拡張早期実行フレームワークを提案する。
我々は,古典的エントロピーに基づく地域情報と距離に基づくグローバル情報とを補完するハイブリッドエグジット戦略を実装した。
GLUEベンチマークの実験では、De$3$-BERTが最先端モデルより一貫して優れていることが示されている。
- 参考スコア(独自算出の注目度): 43.967626080432275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early exiting has demonstrated its effectiveness in accelerating the
inference of pre-trained language models like BERT by dynamically adjusting the
number of layers executed. However, most existing early exiting methods only
consider local information from an individual test sample to determine their
exiting indicators, failing to leverage the global information offered by
sample population. This leads to suboptimal estimation of prediction
correctness, resulting in erroneous exiting decisions. To bridge the gap, we
explore the necessity of effectively combining both local and global
information to ensure reliable early exiting during inference. Purposefully, we
leverage prototypical networks to learn class prototypes and devise a distance
metric between samples and class prototypes. This enables us to utilize global
information for estimating the correctness of early predictions. On this basis,
we propose a novel Distance-Enhanced Early Exiting framework for BERT
(DE$^3$-BERT). DE$^3$-BERT implements a hybrid exiting strategy that
supplements classic entropy-based local information with distance-based global
information to enhance the estimation of prediction correctness for more
reliable early exiting decisions. Extensive experiments on the GLUE benchmark
demonstrate that DE$^3$-BERT consistently outperforms state-of-the-art models
under different speed-up ratios with minimal storage or computational overhead,
yielding a better trade-off between model performance and inference efficiency.
Additionally, an in-depth analysis further validates the generality and
interpretability of our method.
- Abstract(参考訳): 早期終了は、実行されるレイヤ数を動的に調整することで、BERTのような事前訓練された言語モデルの推論を加速する効果を示した。
しかし、既存の早期退避法の多くは、個々の検査サンプルからの局所的な情報しか考慮せず、サンプル集団が提供したグローバルな情報を活用できない。
これにより予測精度が最適以下に推定され、誤った終了決定が導かれる。
このギャップを埋めるために,地域情報とグローバル情報の両方を効果的に組み合わせ,推論中に信頼できる早期退出を確保する必要性を探究する。
故意に、プロトタイプネットワークを利用してクラスプロトタイプを学び、サンプルとクラスプロトタイプ間の距離メトリックを考案する。
これにより,早期予測の正確性を推定するためにグローバル情報を利用することができる。
そこで本研究では, BERT (DE$^3$-BERT) のための分散拡張早期実行フレームワークを提案する。
DE$^3$-BERTは、従来のエントロピーに基づくローカル情報と距離に基づくグローバル情報とを補完するハイブリッドエグジット戦略を実装し、より信頼性の高い早期エグジット決定のための予測正当性の推定を強化する。
GLUEベンチマークの大規模な実験により、De$^3$-BERTは、最小のストレージや計算オーバーヘッドで異なるスピードアップ比で、常に最先端のモデルより優れており、モデル性能と推論効率のトレードオフが向上していることが示された。
さらに,本手法の一般性や解釈可能性についても詳細な解析を行った。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Bayesian Optimization Meets Laplace Approximation for Robotic
Introspection [41.117361086267806]
本稿では,Deep Neural Networks(DNN)をよりイントロスペクティブにするために,スケーラブルなLaplace Approximation (LA)技術を導入する。
特に,本論文では,真の重み付け後部を過小評価する傾向を緩和する新しいベイズ最適化(BO)アルゴリズムを提案する。
提案するフレームワークは,大規模データセットやアーキテクチャにまで拡張可能であることを示す。
論文 参考訳(メタデータ) (2020-10-30T09:28:10Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。