論文の概要: AUBER: Automated BERT Regularization
- arxiv url: http://arxiv.org/abs/2009.14409v1
- Date: Wed, 30 Sep 2020 03:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:35:50.429433
- Title: AUBER: Automated BERT Regularization
- Title(参考訳): AUBER:BERTの正規化自動化
- Authors: Hyun Dong Lee, Seongmin Lee and U Kang
- Abstract要約: AUBERは、強化学習を利用した効果的な正規化手法であり、BERTから自動的に注意を喚起する。
実験結果から, AUBERは, 最大10%の精度で既存の刈り取り方法より優れていた。
- 参考スコア(独自算出の注目度): 20.689164718441294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we effectively regularize BERT? Although BERT proves its
effectiveness in various downstream natural language processing tasks, it often
overfits when there are only a small number of training instances. A promising
direction to regularize BERT is based on pruning its attention heads based on a
proxy score for head importance. However, heuristic-based methods are usually
suboptimal since they predetermine the order by which attention heads are
pruned. In order to overcome such a limitation, we propose AUBER, an effective
regularization method that leverages reinforcement learning to automatically
prune attention heads from BERT. Instead of depending on heuristics or
rule-based policies, AUBER learns a pruning policy that determines which
attention heads should or should not be pruned for regularization. Experimental
results show that AUBER outperforms existing pruning methods by achieving up to
10% better accuracy. In addition, our ablation study empirically demonstrates
the effectiveness of our design choices for AUBER.
- Abstract(参考訳): BERTを効果的に正規化するには?
BERTは、下流の自然言語処理タスクでその効果を証明しているが、少数のトレーニングインスタンスがある場合、しばしば過度に適合する。
BERTを正規化するための有望な方向は、頭部重要度のためのプロキシスコアに基づいてアテンションヘッドをプルーニングすることに基づいている。
しかしながら、ヒューリスティックに基づく手法は通常、注意を向ける順序を決定するため、最適以下である。
このような制限を克服するために,強化学習を利用した効果的な正規化手法であるAUBERを提案する。
auberは、ヒューリスティックスやルールに基づくポリシーに頼る代わりに、どの頭が正規化のために刈り取るべきかどうかを決定する刈り込みポリシーを学習する。
実験結果から, AUBERは, 最大10%の精度で既存の刈り出し方法より優れていた。
さらに,我々のアブレーション研究は,auberの設計選択の有効性を実証的に示している。
関連論文リスト
- Efficient Test-Time Prompt Tuning for Vision-Language Models [41.90997623029582]
Self-TPTは、効率的なテストタイムプロンプトチューニングにセルフ教師付き学習を活用するフレームワークである。
本稿では,Self-TPTが推論コストを大幅に削減するだけでなく,最先端の性能も向上することを示す。
論文 参考訳(メタデータ) (2024-08-11T13:55:58Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - PromptBERT: Improving BERT Sentence Embeddings with Prompts [95.45347849834765]
本稿では,トークン埋め込みのバイアスを低減し,元のBERT層をより効果的にするためのプロンプトベースの文埋め込み手法を提案する。
また,教師なし設定と教師なし設定とのパフォーマンスギャップを大幅に短縮するテンプレート認知技術により,教師なし学習の新たな目標を提案する。
我々の微調整手法は教師なし設定と教師なし設定の両方において最先端のSimCSEよりも優れている。
論文 参考訳(メタデータ) (2022-01-12T06:54:21Z) - Using Prior Knowledge to Guide BERT's Attention in Semantic Textual
Matching Tasks [13.922700041632302]
深層トランスフォーマーモデル(Bidirectional Representations from Transformers (BERT))に先行知識を組み込む問題について検討する。
BERTがもっとも必要とするタスク固有の知識と、それが最も必要である場所をよりよく理解する。
実験により,提案した知識を付加したBERTが意味的テキストマッチング性能を一貫して改善できることが実証された。
論文 参考訳(メタデータ) (2021-02-22T12:07:16Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。