論文の概要: A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking
Systems
- arxiv url: http://arxiv.org/abs/2305.14937v2
- Date: Fri, 17 Nov 2023 15:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:38:57.619211
- Title: A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking
Systems
- Title(参考訳): 既存のエンド・ツー・エンドのエンティティリンクシステムの公平かつ詳細な評価
- Authors: Hannah Bast and Matthias Hertel and Natalie Prange
- Abstract要約: エンティティリンクシステムの評価は、システムが特定のアプリケーションに対してどのように機能するかについてほとんど語らないことが多い。
既存のさまざまなエンド・ツー・エンド・エンティティ・リンカについて,より有意義で公平な評価を行う。
評価は、上記の問題を様々な程度に示すために広く使われているベンチマークと、2つの新しいベンチマークに基づいて行われる。
- 参考スコア(独自算出の注目度): 4.4351901934764975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing evaluations of entity linking systems often say little about how the
system is going to perform for a particular application. There are two
fundamental reasons for this. One is that many evaluations only use aggregate
measures (like precision, recall, and F1 score), without a detailed error
analysis or a closer look at the results. The other is that all of the widely
used benchmarks have strong biases and artifacts, in particular: a strong focus
on named entities, an unclear or missing specification of what else counts as
an entity mention, poor handling of ambiguities, and an over- or
underrepresentation of certain kinds of entities.
We provide a more meaningful and fair in-depth evaluation of a variety of
existing end-to-end entity linkers. We characterize their strengths and
weaknesses and also report on reproducibility aspects. The detailed results of
our evaluation can be inspected under
https://elevant.cs.uni-freiburg.de/emnlp2023 . Our evaluation is based on
several widely used benchmarks, which exhibit the problems mentioned above to
various degrees, as well as on two new benchmarks, which address the problems
mentioned above. The new benchmarks can be found under
https://github.com/ad-freiburg/fair-entity-linking-benchmarks .
- Abstract(参考訳): 既存のエンティティリンクシステムの評価では、システムが特定のアプリケーションに対してどのように機能するかはほとんど語られません。
これには2つの根本的な理由がある。
ひとつは、多くの評価では(精度、リコール、F1スコアなどの)集計測度のみを使用しており、詳細なエラー分析や結果の綿密な確認は行いません。
もうひとつは、広く使用されているベンチマークのすべてが強いバイアスとアーティファクト、特に名前付きエンティティへの強いフォーカス、他のエンティティの言及として数えられるものの不明または欠落した仕様、あいまいさの扱いの貧弱、特定の種類のエンティティの過剰または不足表現である。
我々は、既存の様々なエンド・ツー・エンドのエンティティリンカをより有意義で公平に評価する。
我々は,その強みと弱みを特徴付け,再現性について報告する。
評価の結果はhttps://elevant.cs.uni-freiburg.de/emnlp2023 で確認できる。
評価は, 上記の問題に対処する2つの新しいベンチマークと同様に, 上記の問題を様々な程度に示す, 広く利用されているベンチマークに基づいて行われる。
新しいベンチマークはhttps://github.com/ad-freiburg/fair-entity-linking-benchmarksで見ることができる。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Robustness Evaluation of Entity Disambiguation Using Prior Probes:the
Case of Entity Overshadowing [11.513083693564466]
我々はShadowLinkベンチマークにおいて,一般的なエンティティリンクシステムの性能を評価し,報告する。
その結果, 評価対象のELシステムにおいて, 共通エンティティの数と少ないエンティティの精度は, かなり異なることがわかった。
論文 参考訳(メタデータ) (2021-08-24T20:54:56Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z) - ESBM: An Entity Summarization BenchMark [20.293900908253544]
私たちはEntity Summarization BenchMark(ESBM)を作成し、既存のベンチマークの制限を克服し、ベンチマークの標準的なデシラタを満たします。
これらのシステムはすべて教師なしであるので、参照のための教師付き学習ベースシステムの実装と評価も行う。
論文 参考訳(メタデータ) (2020-03-08T07:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。