論文の概要: Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?
- arxiv url: http://arxiv.org/abs/2212.09747v1
- Date: Mon, 19 Dec 2022 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:06:35.552194
- Title: Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?
- Title(参考訳): CoNLL-2003 は 2023 年に Entity Taggers と命名されるか?
- Authors: Shuheng Liu, Alan Ritter
- Abstract要約: 古典的なCoNLL-2003英語データセットは、名前付きエンティティタグのトレーニングと評価に一般的に使用される。
我々は、CoNLL-2003テストセットの作成に使われたプロセスを模倣した、新しいアノテーション付きテストセットであるCoNLL++を提案する。
CoNLL++を用いて20以上のモデルから最新のデータへの一般化を評価する。
- 参考スコア(独自算出の注目度): 10.789928720739734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is an important and well-studied task in
natural language processing. The classic CoNLL-2003 English dataset, published
almost 20 years ago, is commonly used to train and evaluate named entity
taggers. The age of this dataset raises the question of how well these models
perform when applied to modern data. In this paper, we present CoNLL++, a new
annotated test set that mimics the process used to create the original
CoNLL-2003 test set as closely as possible, except with data collected from
2020. Using CoNLL++, we evaluate the generalization of 20+ different models to
modern data. We observe that different models have very different
generalization behavior. F\textsubscript{1} scores of large transformer-based
models which are pre-trained on recent data dropped much less than models using
static word embeddings, and RoBERTa-based and T5 models achieve comparable
F\textsubscript{1} scores on both CoNLL-2003 and CoNLL++. Our experiments show
that achieving good generalizability requires a combined effort of developing
larger models and continuing pre-training with in-domain and recent data. These
results suggest standard evaluation methodology may have under-estimated
progress on named entity recognition over the past 20 years; in addition to
improving performance on the original CoNLL-2003 dataset, we have also improved
the ability of our models to generalize to modern data.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は自然言語処理において重要かつよく研究されたタスクである。
20年近く前に公開された古典的なCoNLL-2003英語データセットは、一般に名前付きエンティティタグのトレーニングと評価に使われている。
このデータセットの年齢は、現代のデータに適用した場合、これらのモデルがどのように機能するかという疑問を提起する。
本稿では,2020 年から収集されたデータを除いて,オリジナル CoNLL-2003 テストセットを可能な限り緊密に作成するためのプロセスを模倣した,新しいアノテートテストセットである CoNLL++ を提案する。
conll++を用いて20以上の異なるモデルの現代データへの一般化を評価する。
異なるモデルは、非常に異なる一般化挙動を持つ。
F\textsubscript{1}スコアは、最近のデータに基づいて事前トレーニングされた大きなトランスフォーマーベースのモデルで、静的な単語埋め込みを使ったモデルよりもはるかに少なく、RoBERTaベースのモデルとT5モデルは、CoNLL-2003とCoNLL++の両方で同等のF\textsubscript{1}スコアを得る。
我々の実験は、優れた一般化性を達成するためには、より大きなモデルを開発し、ドメイン内および最近のデータで事前学習を続けることが必要であることを示している。
これらの結果から,従来のCoNLL-2003データセットの性能向上に加えて,モデルが現代データに一般化できることが示唆された。
関連論文リスト
- GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - Polyp Segmentation Generalisability of Pretrained Backbones [12.991813293135195]
事前学習したバックボーンの異なるモデルが、トレーニングデータと多少異なる分布のデータにどのように一般化するかを検討する。
我々の結果は、ViT-Bバックボーンのモデルでは性能が優れているにもかかわらず、ResNet50バックボーンのモデルは一般的により一般化されていることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T13:09:52Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Machine Learning Models in Stock Market Prediction [0.0]
本論文は,8つの教師付き機械学習モデルを用いて,ニフティ50指数を予測することに焦点を当てている。
実験は、1996年4月22日から2021年4月16日までのインド株式市場ニフティ50指数の歴史的データに基づいている。
論文 参考訳(メタデータ) (2022-02-06T10:33:42Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Beat the AI: Investigating Adversarial Human Annotation for Reading
Comprehension [27.538957000237176]
人間は、モデルが正しい答えに失敗するように、逆さまに質問を作成する。
アノテーションループでは,より強力なモデルで36,000のサンプルを収集する。
その結果,非対向的なサンプルの学習は,非対向的なデータセットに強い一般化をもたらすことがわかった。
より強力なモデルは、より弱いループモデルで収集されたデータセットから学習できることが分かっています。
論文 参考訳(メタデータ) (2020-02-02T00:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。