論文の概要: Robustness Evaluation of Entity Disambiguation Using Prior Probes:the
Case of Entity Overshadowing
- arxiv url: http://arxiv.org/abs/2108.10949v1
- Date: Tue, 24 Aug 2021 20:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:03:01.438424
- Title: Robustness Evaluation of Entity Disambiguation Using Prior Probes:the
Case of Entity Overshadowing
- Title(参考訳): 先行プローブを用いたエンティティ曖昧性のロバスト性評価:エンティティオーバーシャドーイングの場合
- Authors: Vera Provatorova, Svitlana Vakulenko, Samarth Bhargav, Evangelos
Kanoulas
- Abstract要約: 我々はShadowLinkベンチマークにおいて,一般的なエンティティリンクシステムの性能を評価し,報告する。
その結果, 評価対象のELシステムにおいて, 共通エンティティの数と少ないエンティティの精度は, かなり異なることがわかった。
- 参考スコア(独自算出の注目度): 11.513083693564466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity disambiguation (ED) is the last step of entity linking (EL), when
candidate entities are reranked according to the context they appear in. All
datasets for training and evaluating models for EL consist of convenience
samples, such as news articles and tweets, that propagate the prior probability
bias of the entity distribution towards more frequently occurring entities. It
was previously shown that the performance of the EL systems on such datasets is
overestimated since it is possible to obtain higher accuracy scores by merely
learning the prior. To provide a more adequate evaluation benchmark, we
introduce the ShadowLink dataset, which includes 16K short text snippets
annotated with entity mentions. We evaluate and report the performance of
popular EL systems on the ShadowLink benchmark. The results show a considerable
difference in accuracy between more and less common entities for all of the EL
systems under evaluation, demonstrating the effects of prior probability bias
and entity overshadowing.
- Abstract(参考訳): エンティティの曖昧さ (ED) はエンティティリンク(EL)の最終段階であり、候補となるエンティティが出現するコンテキストに応じてリランクされる。
elのモデルのトレーニングと評価のためのすべてのデータセットは、ニュース記事やツイートのような便利なサンプルで構成されており、より頻繁に発生するエンティティに対するエンティティ分布の以前の確率バイアスを広めている。
このようなデータセット上でのELシステムの性能は,事前学習だけで高い精度のスコアを得ることができるため,過大評価されている。
より適切な評価ベンチマークとして,エンティティ参照に注釈を付けた16Kの短いテキストスニペットを含むShadowLinkデータセットを導入する。
我々はShadowLinkベンチマークで人気のあるELシステムの性能を評価し報告する。
その結果, 評価対象のELシステムにおいて, 既往の確率バイアスとエンティティのオーバーシャドーイングの影響を実証し, 共通エンティティの精度に有意な差が認められた。
関連論文リスト
- Reliability in Semantic Segmentation: Can We Use Synthetic Data? [52.5766244206855]
本稿では,セマンティックセグメンテーションにおける信頼性を評価するために,データの自動合成を行う最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
我々は,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems [50.82251875013377]
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
予測駆動推論(PPI)のための人間アノテーション付きデータポイントの小さなセットの利用
ARESは、数百の人間のアノテーションを使用して、RAGシステムを正確に評価する。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking
Systems [4.4351901934764975]
エンティティリンクシステムの評価は、システムが特定のアプリケーションに対してどのように機能するかについてほとんど語らないことが多い。
既存のさまざまなエンド・ツー・エンド・エンティティ・リンカについて,より有意義で公平な評価を行う。
評価は、上記の問題を様々な程度に示すために広く使われているベンチマークと、2つの新しいベンチマークに基づいて行われる。
論文 参考訳(メタデータ) (2023-05-24T09:20:15Z) - Focusing on Context is NICE: Improving Overshadowed Entity
Disambiguation [43.82625203429496]
NICEは、コンテキストを活用するためにエンティティタイプ情報を使用し、周波数ベースの事前のオーバーリライスを避ける。
実験の結果,NICEは,頻繁なエンティティに対して競争力を持ちながら,オーバーシャドードエンティティ上で最高のパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-12T13:05:37Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Entity Linking and Discovery via Arborescence-based Supervised
Clustering [35.93568319872986]
本稿では,言及親和性を完全に活用する新しいトレーニングと推論手法を提案する。
我々は,この手法がエンティティ発見に優雅に拡張されていることを示す。
我々はZero-Shot Entity LinkingデータセットとMedMentionsに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-09-02T23:05:58Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。