論文の概要: Robustness Evaluation of Entity Disambiguation Using Prior Probes:the
Case of Entity Overshadowing
- arxiv url: http://arxiv.org/abs/2108.10949v1
- Date: Tue, 24 Aug 2021 20:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:03:01.438424
- Title: Robustness Evaluation of Entity Disambiguation Using Prior Probes:the
Case of Entity Overshadowing
- Title(参考訳): 先行プローブを用いたエンティティ曖昧性のロバスト性評価:エンティティオーバーシャドーイングの場合
- Authors: Vera Provatorova, Svitlana Vakulenko, Samarth Bhargav, Evangelos
Kanoulas
- Abstract要約: 我々はShadowLinkベンチマークにおいて,一般的なエンティティリンクシステムの性能を評価し,報告する。
その結果, 評価対象のELシステムにおいて, 共通エンティティの数と少ないエンティティの精度は, かなり異なることがわかった。
- 参考スコア(独自算出の注目度): 11.513083693564466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity disambiguation (ED) is the last step of entity linking (EL), when
candidate entities are reranked according to the context they appear in. All
datasets for training and evaluating models for EL consist of convenience
samples, such as news articles and tweets, that propagate the prior probability
bias of the entity distribution towards more frequently occurring entities. It
was previously shown that the performance of the EL systems on such datasets is
overestimated since it is possible to obtain higher accuracy scores by merely
learning the prior. To provide a more adequate evaluation benchmark, we
introduce the ShadowLink dataset, which includes 16K short text snippets
annotated with entity mentions. We evaluate and report the performance of
popular EL systems on the ShadowLink benchmark. The results show a considerable
difference in accuracy between more and less common entities for all of the EL
systems under evaluation, demonstrating the effects of prior probability bias
and entity overshadowing.
- Abstract(参考訳): エンティティの曖昧さ (ED) はエンティティリンク(EL)の最終段階であり、候補となるエンティティが出現するコンテキストに応じてリランクされる。
elのモデルのトレーニングと評価のためのすべてのデータセットは、ニュース記事やツイートのような便利なサンプルで構成されており、より頻繁に発生するエンティティに対するエンティティ分布の以前の確率バイアスを広めている。
このようなデータセット上でのELシステムの性能は,事前学習だけで高い精度のスコアを得ることができるため,過大評価されている。
より適切な評価ベンチマークとして,エンティティ参照に注釈を付けた16Kの短いテキストスニペットを含むShadowLinkデータセットを導入する。
我々はShadowLinkベンチマークで人気のあるELシステムの性能を評価し報告する。
その結果, 評価対象のELシステムにおいて, 既往の確率バイアスとエンティティのオーバーシャドーイングの影響を実証し, 共通エンティティの精度に有意な差が認められた。
関連論文リスト
- Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts [0.6282171844772422]
多くのLarge Language Models(LLM)のトレーニングデータは、テストデータによって汚染される。
公開ベンチマークスコアは必ずしもモデルプロパティを正確に評価するとは限らない。
論文 参考訳(メタデータ) (2024-10-11T20:46:56Z) - Real World Conversational Entity Linking Requires More Than Zeroshots [50.5691094768954]
本研究では,資源制約下でのELモデルの有効性を評価するための評価シナリオを設計する。
本稿では、Fandomと新しいゼロショット対話型エンティティリンクデータセットを用いて、ELモデルの未知KBへの一般化能力を評価する。
その結果,既存のゼロショットELモデルでは,事前トレーニングなしで新しいドメイン固有KBを導入するとフェールすることがわかった。
論文 参考訳(メタデータ) (2024-09-02T10:37:53Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking
Systems [4.4351901934764975]
エンティティリンクシステムの評価は、システムが特定のアプリケーションに対してどのように機能するかについてほとんど語らないことが多い。
既存のさまざまなエンド・ツー・エンド・エンティティ・リンカについて,より有意義で公平な評価を行う。
評価は、上記の問題を様々な程度に示すために広く使われているベンチマークと、2つの新しいベンチマークに基づいて行われる。
論文 参考訳(メタデータ) (2023-05-24T09:20:15Z) - Focusing on Context is NICE: Improving Overshadowed Entity
Disambiguation [43.82625203429496]
NICEは、コンテキストを活用するためにエンティティタイプ情報を使用し、周波数ベースの事前のオーバーリライスを避ける。
実験の結果,NICEは,頻繁なエンティティに対して競争力を持ちながら,オーバーシャドードエンティティ上で最高のパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-12T13:05:37Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。