論文の概要: Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?
- arxiv url: http://arxiv.org/abs/2212.09747v2
- Date: Wed, 12 Jul 2023 02:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 19:55:50.085630
- Title: Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?
- Title(参考訳): CoNLL-2003 は 2023 年に Entity Taggers と命名されるか?
- Authors: Shuheng Liu, Alan Ritter
- Abstract要約: 我々はCoNLL-2003で訓練された20以上のモデルの一般化を評価する。
驚くべきことに、RoBERTaやT5といった事前訓練されたトランスフォーマーのパフォーマンス劣化の証拠は見つからない。
分析の結果,ほとんどの劣化は,事前学習コーパスと下流テストセットの時間的ミスマッチによるものであることが示唆された。
- 参考スコア(独自算出の注目度): 10.789928720739734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The CoNLL-2003 English named entity recognition (NER) dataset has been widely
used to train and evaluate NER models for almost 20 years. However, it is
unclear how well models that are trained on this 20-year-old data and developed
over a period of decades using the same test set will perform when applied on
modern data. In this paper, we evaluate the generalization of over 20 different
models trained on CoNLL-2003, and show that NER models have very different
generalization. Surprisingly, we find no evidence of performance degradation in
pre-trained Transformers, such as RoBERTa and T5, even when fine-tuned using
decades-old data. We investigate why some models generalize well to new data
while others do not, and attempt to disentangle the effects of temporal drift
and overfitting due to test reuse. Our analysis suggests that most
deterioration is due to temporal mismatch between the pre-training corpora and
the downstream test sets. We found that four factors are important for good
generalization: model architecture, number of parameters, time period of the
pre-training corpus, in addition to the amount of fine-tuning data. We suggest
current evaluation methods have, in some sense, underestimated progress on NER
over the past 20 years, as NER models have not only improved on the original
CoNLL-2003 test set, but improved even more on modern data. Our datasets can be
found at https://github.com/ShuhengL/acl2023_conllpp.
- Abstract(参考訳): CoNLL-2003 英語のエンティティ認識(NER)データセットは、ほぼ20年間、NERモデルのトレーニングと評価に広く使われている。
しかし、この20年前のデータに基づいてトレーニングされ、同じテストセットを使用して数十年にわたって開発されたモデルが、現代のデータに適用された場合、どの程度うまく機能するかは不明だ。
本稿では,CoNLL-2003で訓練された20以上のモデルの一般化を評価し,NERモデルが全く異なる一般化を持つことを示す。
驚くことに、何十年も前のデータを使って微調整しても、RoBERTaやT5のような事前訓練されたトランスフォーマーのパフォーマンス劣化の証拠は見つからない。
そこで本研究では,新しいデータによく当てはまるモデルもあれば,テスト再利用による時間的ドリフトやオーバーフィッティングの影響を解消しようとするモデルもある。
分析の結果,ほとんどの劣化は,事前学習コーパスと下流テストセットの時間的ミスマッチによるものであることが示唆された。
モデルアーキテクチャ,パラメータ数,事前学習コーパスの期間,微調整データの量という4つの要因が,優れた一般化に重要であることがわかった。
我々は,現在の評価手法が,従来のCoNLL-2003テストセットでNERモデルを改良しただけでなく,最新のデータでさらに改良したことから,過去20年間のNERの進歩を過小評価していることを示唆している。
データセットはhttps://github.com/ShuhengL/acl2023_conllpp.comで参照できます。
関連論文リスト
- GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - Polyp Segmentation Generalisability of Pretrained Backbones [12.991813293135195]
事前学習したバックボーンの異なるモデルが、トレーニングデータと多少異なる分布のデータにどのように一般化するかを検討する。
我々の結果は、ViT-Bバックボーンのモデルでは性能が優れているにもかかわらず、ResNet50バックボーンのモデルは一般的により一般化されていることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T13:09:52Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Machine Learning Models in Stock Market Prediction [0.0]
本論文は,8つの教師付き機械学習モデルを用いて,ニフティ50指数を予測することに焦点を当てている。
実験は、1996年4月22日から2021年4月16日までのインド株式市場ニフティ50指数の歴史的データに基づいている。
論文 参考訳(メタデータ) (2022-02-06T10:33:42Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Beat the AI: Investigating Adversarial Human Annotation for Reading
Comprehension [27.538957000237176]
人間は、モデルが正しい答えに失敗するように、逆さまに質問を作成する。
アノテーションループでは,より強力なモデルで36,000のサンプルを収集する。
その結果,非対向的なサンプルの学習は,非対向的なデータセットに強い一般化をもたらすことがわかった。
より強力なモデルは、より弱いループモデルで収集されたデータセットから学習できることが分かっています。
論文 参考訳(メタデータ) (2020-02-02T00:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。