論文の概要: BERT on a Data Diet: Finding Important Examples by Gradient-Based
Pruning
- arxiv url: http://arxiv.org/abs/2211.05610v1
- Date: Thu, 10 Nov 2022 14:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:15:45.696210
- Title: BERT on a Data Diet: Finding Important Examples by Gradient-Based
Pruning
- Title(参考訳): データダイエットに関するbert:グラデーションに基づくpruningによる重要な例を見つける
- Authors: Mohsen Fayyaz, Ehsan Aghazadeh, Ali Modarressi, Mohammad Taher
Pilehvar, Yadollah Yaghoobzadeh, Samira Ebrahimi Kahou
- Abstract要約: 我々は,GraNdとその推定バージョンであるEL2Nを,データセットの重要な例を見つけるための評価指標として紹介する。
この結果から,GraNd/EL2Nスコアが最も高いサンプルのごく一部を刈り取ることで,テスト精度を維持できるだけでなく,それを超えることを示す。
- 参考スコア(独自算出の注目度): 20.404705741136777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current pre-trained language models rely on large datasets for achieving
state-of-the-art performance. However, past research has shown that not all
examples in a dataset are equally important during training. In fact, it is
sometimes possible to prune a considerable fraction of the training set while
maintaining the test performance. Established on standard vision benchmarks,
two gradient-based scoring metrics for finding important examples are GraNd and
its estimated version, EL2N. In this work, we employ these two metrics for the
first time in NLP. We demonstrate that these metrics need to be computed after
at least one epoch of fine-tuning and they are not reliable in early steps.
Furthermore, we show that by pruning a small portion of the examples with the
highest GraNd/EL2N scores, we can not only preserve the test accuracy, but also
surpass it. This paper details adjustments and implementation choices which
enable GraNd and EL2N to be applied to NLP.
- Abstract(参考訳): 現在の事前学習された言語モデルは、最先端のパフォーマンスを達成するために大きなデータセットに依存している。
しかし、過去の研究では、データセットのすべての例がトレーニング中に等しく重要であるわけではないことが示されている。
実際、テストパフォーマンスを維持しながら、トレーニングセットのかなりの一部を試すことができることがある。
標準ビジョンベンチマークに基づいて構築された2つのグラデーションベースの評価指標は、GraNdとその推定バージョンであるEL2Nである。
本研究では,この2つの指標をNLPで初めて採用する。
これらのメトリクスは、少なくとも1回の微調整の後に計算する必要があることを示し、初期の段階では信頼できない。
さらに,grand/el2nスコアが最も高い例のごく一部を刈り取ることで,テスト精度を保っただけでなく,それを超えることができることを示した。
本稿では,GraNdとEL2NをNLPに適用可能な調整および実装選択について述べる。
関連論文リスト
- Enhancing Understanding Through Wildlife Re-Identification [0.0]
複数のデータセット上で複数のモデルの性能を解析する。
分類のためにトレーニングされたメトリクスを使用し、次に出力層を取り除き、第2の最終層を埋め込みとして使用することは、学習の戦略として成功しなかったことが分かりました。
DCNNSはいくつかのデータセットでは良好に動作したが、他のデータセットではうまく動作しなかった。
LightGBMは過度に過度に適合しており、測定基準として正確性を使用して全てのペアで訓練および評価を行う場合、定型モデルよりも著しくは優れていなかった。
論文 参考訳(メタデータ) (2024-05-17T22:28:50Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - Augmenting NLP data to counter Annotation Artifacts for NLI Tasks [0.0]
大規模な事前トレーニングされたNLPモデルは、ベンチマークデータセット上で高いパフォーマンスを達成するが、基礎となるタスクを実際に"解決"することはない。
モデルの性能の限界を理解するために、まずコントラストと逆例を用いてこの現象を探求する。
次に、このバイアスを修正し、その有効性を測定するためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T15:34:53Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Fortunately, Discourse Markers Can Enhance Language Models for Sentiment
Analysis [13.149482582098429]
本稿では、感情伝達型談話マーカーを利用して、大規模に弱いラベル付きデータを生成することを提案する。
ファイナンスドメインを含むさまざまなベンチマークデータセットにアプローチの価値を示す。
論文 参考訳(メタデータ) (2022-01-06T12:33:47Z) - Deep Learning on a Data Diet: Finding Important Examples Early in
Training [35.746302913918484]
ビジョンデータセットでは、トレーニングの初期段階で重要な例を特定するために、単純なスコアを使用することができる。
グラディエントノルメッド(GraNd)と誤差L2-ノルム(EL2N)という2つのスコアを提案する。
論文 参考訳(メタデータ) (2021-07-15T02:12:20Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。