論文の概要: Improving BERT with Self-Supervised Attention
- arxiv url: http://arxiv.org/abs/2004.03808v4
- Date: Fri, 22 Oct 2021 05:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:11:18.969041
- Title: Improving BERT with Self-Supervised Attention
- Title(参考訳): 自己監視によるBERTの改善
- Authors: Yiren Chen, Xiaoyu Kou, Jiangang Bai, and Yunhai Tong
- Abstract要約: 本稿では,SSA(Self-Supervised Attention)と呼ばれる新しい手法を提案する。
具体的には、SSAは、前回のイテレーションから微調整されたモデルを探索することにより、弱いトークンレベルのアテンションラベルを反復的に自動生成する。
実証的には、さまざまな公開データセットを通じて、SSA強化BERTモデルを使用して、大幅なパフォーマンス改善を図示します。
- 参考スコア(独自算出の注目度): 10.096527622397504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most popular paradigms of applying large pre-trained NLP models
such as BERT is to fine-tune it on a smaller dataset. However, one challenge
remains as the fine-tuned model often overfits on smaller datasets. A symptom
of this phenomenon is that irrelevant or misleading words in the sentence,
which are easy to understand for human beings, can substantially degrade the
performance of these finetuned BERT models. In this paper, we propose a novel
technique, called Self-Supervised Attention (SSA) to help facilitate this
generalization challenge. Specifically, SSA automatically generates weak,
token-level attention labels iteratively by probing the fine-tuned model from
the previous iteration. We investigate two different ways of integrating SSA
into BERT and propose a hybrid approach to combine their benefits. Empirically,
through a variety of public datasets, we illustrate significant performance
improvement using our SSA-enhanced BERT model.
- Abstract(参考訳): BERTのような大規模なトレーニング済みNLPモデルを適用する最も一般的なパラダイムの1つは、小さなデータセットでそれを微調整することである。
しかし、細調整されたモデルは小さなデータセットによく適合するため、課題は残る。
この現象の症状は、人間が理解しやすい文中の無関係あるいは誤解を招く単語が、これらの微調整されたbertモデルの性能を実質的に低下させることができることである。
本稿では,この一般化課題を促進するために,自己監督注意 (self-supervised attention, ssa) と呼ばれる新しい手法を提案する。
具体的には、SSAは、前回のイテレーションから微調整されたモデルを探索することにより、弱いトークンレベルのアテンションラベルを反復的に自動生成する。
我々は,ssaをbertに統合する2つの異なる方法を調査し,それらの利点を組み合わせるためのハイブリッドアプローチを提案する。
実証的には、さまざまな公開データセットを通じて、SSA強化BERTモデルを使用して、大幅なパフォーマンス向上を示す。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - BERT-LSH: Reducing Absolute Compute For Attention [0.0]
本研究では,局所感性ハッシュ(LSH)を組み込んだ新しいBERT-LSHモデルを提案する。
以上の結果から,BERT-LSHは,事前学習や微調整作業において,ベースラインモデルよりも予期せぬ性能を保ちながら,自己保持層の計算要求を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-04-12T22:35:00Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - ST++: Make Self-training Work Better for Semi-supervised Semantic
Segmentation [23.207191521477654]
半教師付きセグメンテーションにおいて、自己学習 -- シンプルだが人気のあるフレームワーク -- がよりうまく機能できるかどうかを調査する。
より信頼性の高い未ラベル画像の選択と優先順位付けにより選択的な再学習を行う高度自己学習フレームワーク(ST++)を提案する。
その結果、提案したST++は、半教師付きモデルの性能を大幅に向上させ、Pascal VOC 2012とCityscapesベンチマークにおいて、既存のメソッドをはるかに上回っている。
論文 参考訳(メタデータ) (2021-06-09T14:18:32Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z) - Enriched Pre-trained Transformers for Joint Slot Filling and Intent
Detection [22.883725214057286]
本稿では,意図に基づく言語モデル学習のための新しいアーキテクチャを提案する。
そこで本研究では,意図分布,単語特徴,トークン表現を融合させることで,スロット充足作業の強化を図る。
標準データセットによる実験結果から,我々のモデルは現在の非BERT状態と,より強力なBERTベースラインの両方に優れることがわかった。
論文 参考訳(メタデータ) (2020-04-30T15:00:21Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。