論文の概要: PALBERT: Teaching ALBERT to Ponder
- arxiv url: http://arxiv.org/abs/2204.03276v4
- Date: Thu, 18 May 2023 08:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 21:11:01.435717
- Title: PALBERT: Teaching ALBERT to Ponder
- Title(参考訳): PALBERT:AlbertをPonderに教える
- Authors: Nikita Balagansky, Daniil Gavrilov
- Abstract要約: 本稿では,新しい決定論的Q-exit基準と再検討されたモデルアーキテクチャを用いて,PenderNetの改良を提案する。
提案した変更は,オリジナルのPenderNetアーキテクチャの大幅な改善とみなすことができる。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, pre-trained models can be considered the default choice for a wide
range of NLP tasks. Despite their SoTA results, there is practical evidence
that these models may require a different number of computing layers for
different input sequences, since evaluating all layers leads to overconfidence
in wrong predictions (namely overthinking). This problem can potentially be
solved by implementing adaptive computation time approaches, which were first
designed to improve inference speed. Recently proposed PonderNet may be a
promising solution for performing an early exit by treating the exit layer's
index as a latent variable. However, the originally proposed exit criterion,
relying on sampling from trained posterior distribution on the probability of
exiting from the $i$-th layer, introduces major variance in exit layer indices,
significantly reducing the resulting model's performance. In this paper, we
propose improving PonderNet with a novel deterministic Q-exit criterion and a
revisited model architecture. We adapted the proposed mechanism to ALBERT and
RoBERTa and compared it with recent methods for performing an early exit. We
observed that the proposed changes can be considered significant improvements
on the original PonderNet architecture and outperform PABEE on a wide range of
GLUE tasks. In addition, we also performed an in-depth ablation study of the
proposed architecture to further understand Lambda layers and their
performance.
- Abstract(参考訳): 現在、事前訓練されたモデルは幅広いNLPタスクのデフォルト選択と見なすことができる。
sotaの結果にもかかわらず、これらのモデルは異なる入力シーケンスに対して異なる数の計算層を必要とする可能性があるという実用的な証拠がある。
この問題は、最初に推論速度を改善するために設計された適応計算時間アプローチを実装することで解決できる。
最近提案されたPonderNetは、出口層のインデックスを潜伏変数として扱うことで早期出口を実行するための有望なソリューションであるかもしれない。
しかし、当初提案された出口基準は、i$-th層からの出口確率に基づいて訓練後分布からのサンプリングに依存するため、出口層の指標に大きなばらつきが生じ、結果として得られるモデルの性能が大幅に低下する。
本稿では,新しい決定論的q-exit基準と再訪モデルアーキテクチャを用いて, pondernetの改良を提案する。
提案手法をALBERTとRoBERTaに適用し,近年の早期出口法と比較した。
提案した変更は,オリジナルのPonderNetアーキテクチャにおいて大幅に改善され,幅広いGLUEタスクにおいてPABEEを上回っていると考えられる。
さらに,ラムダ層とその性能をより深く理解するために,提案するアーキテクチャの詳細なアブレーション実験を行った。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - A Unified Framework for Soft Threshold Pruning [27.853698217792456]
反復収縮閾値アルゴリズム(ISTA)を用いた暗黙の最適化問題としてソフトしきい値プルーニングを再構成する。
我々は,フレームワークに基づくしきい値スケジューリングの詳細な研究を通じて,最適なしきい値スケジューラを導出する。
原理的には、導出プルーニングアルゴリズムは、SGDで訓練された任意の数学的モデルをスパース化することができる。
論文 参考訳(メタデータ) (2023-02-25T08:16:14Z) - Pruning Deep Neural Networks from a Sparsity Perspective [34.22967841734504]
プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、または層を落とすことで達成される。
深層ニューラルネットワークの圧縮可能性を測定するためにPQインデックス(PQI)を提案し,これをスペーサ性インフォームド・アダプティブ・プルーニング(SAP)アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2023-02-11T04:52:20Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Backpropagation-Free Learning Method for Correlated Fuzzy Neural
Networks [2.1320960069210475]
本稿では,所望の前提部品の出力を推定し,段階的に学習する手法を提案する。
前提部品のパラメータを学習するために出力エラーをバックプロパゲートする必要はない。
実世界の時系列予測と回帰問題に適用できる。
論文 参考訳(メタデータ) (2020-11-25T20:56:05Z) - Neural Model-based Optimization with Right-Censored Observations [42.530925002607376]
ニューラルネットワーク(NN)は、モデルベースの最適化手順のコアでうまく機能することが実証されている。
トレーニングされた回帰モデルは,いくつかのベースラインよりも優れた予測品質が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T07:32:30Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。