論文の概要: BERT memorisation and pitfalls in low-resource scenarios
- arxiv url: http://arxiv.org/abs/2105.00828v1
- Date: Fri, 16 Apr 2021 18:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 20:43:47.976466
- Title: BERT memorisation and pitfalls in low-resource scenarios
- Title(参考訳): 低リソースシナリオにおけるBERT記憶と落とし穴
- Authors: Michael T\"anzer, Sebastian Ruder, Marek Rei
- Abstract要約: 最先端の事前訓練モデルは、事実を記憶し、限られたトレーニングデータでうまく機能することが示されている。
我々は,ノイズおよび低リソースシナリオにおける一般化と記憶能力について検討する。
これらのモデルのトレーニングはラベルノイズにほとんど影響されず、非常に騒々しいデータセットでもほぼ最適のパフォーマンスに達することができることがわかります。
- 参考スコア(独自算出の注目度): 35.780321385414005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art pre-trained models have been shown to memorise facts and
perform well with limited amounts of training data. To gain a better
understanding of how these models learn, we study their generalisation and
memorisation capabilities in noisy and low-resource scenarios. We find that the
training of these models is almost unaffected by label noise and that it is
possible to reach near-optimal performances even on extremely noisy datasets.
Conversely, we also find that they completely fail when tested on low-resource
tasks such as few-shot learning and rare entity recognition. To mitigate such
limitations, we propose a novel architecture based on BERT and prototypical
networks that improves performance in low-resource named entity recognition
tasks.
- Abstract(参考訳): 最先端の事前訓練モデルは、事実を記憶し、限られたトレーニングデータでうまく機能することが示されている。
これらのモデルがどのように学習するかをより深く理解するため、ノイズと低リソースシナリオにおける一般化と記憶能力について検討する。
これらのモデルのトレーニングはラベルノイズの影響を受けず、非常にノイズの多いデータセットでもほぼ最適性能に達することができる。
逆に、少数ショット学習やまれなエンティティ認識のような低リソースタスクでテストすると、完全に失敗する。
このような制約を緩和するために,低リソースのエンティティ認識タスクの性能を向上させるbertとprototypepical networkに基づく新しいアーキテクチャを提案する。
関連論文リスト
- Retrieval-enriched zero-shot image classification in low-resource domains [23.529317590033845]
低リソースドメインは、言語および視覚的理解タスクにおいて重要な課題を提示する。
VLM(Vision-Language Models)の最近の進歩は、高リソース領域において有望な結果を示しているが、低リソースの概念では不足している。
新たな視点から,ゼロショット低解像度画像分類の課題に取り組む。
論文 参考訳(メタデータ) (2024-11-01T19:24:55Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Improving Question Answering Performance Using Knowledge Distillation
and Active Learning [6.380750645368325]
本稿では,事前学習したBERTシステムのパラメータとモデル複雑性を低減するために,新しい知識蒸留(KD)手法を提案する。
本モデルでは,TinyBERTとDistilBERTの合計パラメータの2%しか使用せず,6層TinyBERTとDistilBERTの性能を実証する。
論文 参考訳(メタデータ) (2021-09-26T17:49:54Z) - Learning from Noisy Labels for Entity-Centric Information Extraction [17.50856935207308]
エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。
これらのモデルはタスク固有の損失と共同最適化され、同様の予測を生成するために正規化される。
結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。
論文 参考訳(メタデータ) (2021-04-17T22:49:12Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Low-Resolution Face Recognition In Resource-Constrained Environments [34.13093606945265]
本研究では,非パラメトリック低解像度顔認識モデルを提案する。
少数のラベル付きデータサンプルで、トレーニングの複雑さが低く、低解像度の入力イメージでトレーニングすることができる。
提案モデルの有効性は,LFWとCMU Multi-PIEデータセットの実験によって実証された。
論文 参考訳(メタデータ) (2020-11-23T19:14:02Z) - Deep k-NN for Noisy Labels [55.97221021252733]
予備モデルのロジット層上での単純な$k$-nearest近傍フィルタリング手法により、ラベルの誤りを除去し、最近提案された多くの手法よりも正確なモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2020-04-26T05:15:36Z) - Low-Resource Knowledge-Grounded Dialogue Generation [74.09352261943913]
我々は、限られた訓練例しか利用できないという自然な仮定のもと、知識基底による対話生成を考察する。
生成モデル全体から知識基底の対話に依存するパラメータを分離するために,不整合応答デコーダを考案する。
1/8のトレーニングデータだけで、我々のモデルは最先端のパフォーマンスを達成でき、ドメイン外の知識をうまく一般化できる。
論文 参考訳(メタデータ) (2020-02-24T16:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。