論文の概要: TMR: Evaluating NER Recall on Tough Mentions
- arxiv url: http://arxiv.org/abs/2103.12312v1
- Date: Tue, 23 Mar 2021 05:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:11:26.616649
- Title: TMR: Evaluating NER Recall on Tough Mentions
- Title(参考訳): TMR: タフ・メンションのNERリコールの評価
- Authors: Jingxuan Tu and Constantine Lignos
- Abstract要約: 従来の名前付きエンティティ認識(NER)評価を補完するTough Mentions Recall(TMR)メトリクスを提案します。
TMRメトリクスは、"粗い"言及の特定のサブセットをリコールする。
本稿では,最近の5つのニューラルアーキテクチャを用いて,英語,スペイン語,オランダ語のコーパスを評価することにより,これらの指標の有用性を示す。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Tough Mentions Recall (TMR) metrics to supplement traditional
named entity recognition (NER) evaluation by examining recall on specific
subsets of "tough" mentions: unseen mentions, those whose tokens or token/type
combination were not observed in training, and type-confusable mentions, token
sequences with multiple entity types in the test data. We demonstrate the
usefulness of these metrics by evaluating corpora of English, Spanish, and
Dutch using five recent neural architectures. We identify subtle differences
between the performance of BERT and Flair on two English NER corpora and
identify a weak spot in the performance of current models in Spanish. We
conclude that the TMR metrics enable differentiation between otherwise
similar-scoring systems and identification of patterns in performance that
would go unnoticed from overall precision, recall, and F1.
- Abstract(参考訳): 従来の名前付きエンティティ認識(ner)の評価を補完するために、tmr(t tough mentions recall)メトリクスを提案し、"tough"参照の特定のサブセットのリコールを調べる。
本稿では,最近の5つのニューラルアーキテクチャを用いて,英語,スペイン語,オランダ語のコーパスを評価することにより,これらの指標の有用性を示す。
2つの英語NERコーパスにおけるBERTとFrairの性能の微妙な差異を同定し、スペイン語の現行モデルの性能の弱点を同定する。
結論として,tmrメトリクスは,類似するスコーリングシステム間の差別化と,全体的な精度,リコール,f1から注目されないパフォーマンスパターンの識別を可能にする。
関連論文リスト
- Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer [50.572974726351504]
クラスベースのLMをFNTに組み込んだ新しいE2EモデルであるC-FNTを提案する。
C-FNTでは、名前付きエンティティのLMスコアは、その表面形式の代わりに名前クラスに関連付けることができる。
実験の結果,提案したC-FNTは,単語認識の性能を損なうことなく,名前付きエンティティの誤りを著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-09-14T12:14:49Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T21:26:19Z) - A Multilingual Evaluation of NER Robustness to Adversarial Inputs [0.0]
言語モデルの敵対的評価は典型的には英語のみに焦点をあてる。
本稿では,入力中の小さな摂動に対する頑健性の観点から,名前付きエンティティ認識(NER)の多言語評価を行った。
既存のNERモデルに適応するために,新たなNERモデルをトレーニングするための強化トレーニングデータとして,生成した逆数データセットの一部を用いて既存のNERモデルを改善することが可能か,あるいは微調整データとして検討した。
論文 参考訳(メタデータ) (2023-05-30T10:50:49Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - SERAB: A multi-lingual benchmark for speech emotion recognition [12.579936838293387]
ディープニューラルネットワーク(DNN)を利用した音声感情認識(SER)の最近の進歩
本稿では、発話レベルSERに対する様々なアプローチの性能と一般化能力を評価するためのフレームワークである音声感情認識適応ベンチマーク(SERAB)を提案する。
論文 参考訳(メタデータ) (2021-10-07T13:01:34Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。