論文の概要: A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking
Systems
- arxiv url: http://arxiv.org/abs/2305.14937v1
- Date: Wed, 24 May 2023 09:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:45:06.263319
- Title: A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking
Systems
- Title(参考訳): 既存のエンド・ツー・エンドのエンティティリンクシステムの公平かつ詳細な評価
- Authors: Hannah Bast and Matthias Hertel and Natalie Prange
- Abstract要約: 既存のエンティティリンクシステムの評価では、システムが特定のアプリケーションに対してどのように機能するかはほとんど語られません。
既存のさまざまなエンド・ツー・エンド・エンティティ・リンカについて,より有意義で公平な評価を行う。
- 参考スコア(独自算出の注目度): 0.2964978357715083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing evaluations of entity linking systems often say little about how the
system is going to perform for a particular application. There are four
fundamental reasons for this: many benchmarks focus on named entities; it is
hard to define which other entities to include; there are ambiguities in entity
recognition and entity linking; many benchmarks have errors or artifacts that
invite overfitting or lead to evaluation results of limited meaningfulness.
We provide a more meaningful and fair in-depth evaluation of a variety of
existing end-to-end entity linkers. We characterize the strengths and
weaknesses of these linkers and how well the results from the respective
publications can be reproduced. Our evaluation is based on several widely used
benchmarks, which exhibit the problems mentioned above to various degrees, as
well as on two new benchmarks, which address these problems.
- Abstract(参考訳): 既存のエンティティリンクシステムの評価では、システムが特定のアプリケーションに対してどのように機能するかはほとんど語られません。
多くのベンチマークが名前付きエンティティに焦点を当てている; どのエンティティを含めるべきかを定義するのは難しい; エンティティ認識とエンティティリンクの曖昧さがある; 多くのベンチマークには過度な適合を招いたり、限定的な意味のある評価結果につながるエラーやアーティファクトがある。
我々は、既存の様々なエンド・ツー・エンドのエンティティリンカをより有意義で公平に評価する。
我々は,これらのリンカの長所と短所と,各出版物の成果がどの程度再現できるかを特徴付ける。
本評価は,これらの問題に対処する2つの新しいベンチマークと同様に,上記の問題を様々な程度に示す,広く使用されているベンチマークに基づく。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Robustness Evaluation of Entity Disambiguation Using Prior Probes:the
Case of Entity Overshadowing [11.513083693564466]
我々はShadowLinkベンチマークにおいて,一般的なエンティティリンクシステムの性能を評価し,報告する。
その結果, 評価対象のELシステムにおいて, 共通エンティティの数と少ないエンティティの精度は, かなり異なることがわかった。
論文 参考訳(メタデータ) (2021-08-24T20:54:56Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z) - ESBM: An Entity Summarization BenchMark [20.293900908253544]
私たちはEntity Summarization BenchMark(ESBM)を作成し、既存のベンチマークの制限を克服し、ベンチマークの標準的なデシラタを満たします。
これらのシステムはすべて教師なしであるので、参照のための教師付き学習ベースシステムの実装と評価も行う。
論文 参考訳(メタデータ) (2020-03-08T07:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。