Fugu-MT 論文翻訳(概要): Robustness Evaluation of Entity Disambiguation Using Prior Probes:the Case of Entity Overshadowing

論文の概要: Robustness Evaluation of Entity Disambiguation Using Prior Probes:the Case of Entity Overshadowing

arxiv url: http://arxiv.org/abs/2108.10949v1
Date: Tue, 24 Aug 2021 20:54:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-26 13:03:01.438424
Title: Robustness Evaluation of Entity Disambiguation Using Prior Probes:the Case of Entity Overshadowing
Title（参考訳）: 先行プローブを用いたエンティティ曖昧性のロバスト性評価:エンティティオーバーシャドーイングの場合
Authors: Vera Provatorova, Svitlana Vakulenko, Samarth Bhargav, Evangelos Kanoulas
Abstract要約: 我々はShadowLinkベンチマークにおいて,一般的なエンティティリンクシステムの性能を評価し,報告する。その結果, 評価対象のELシステムにおいて, 共通エンティティの数と少ないエンティティの精度は, かなり異なることがわかった。
参考スコア（独自算出の注目度）: 11.513083693564466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Entity disambiguation (ED) is the last step of entity linking (EL), when candidate entities are reranked according to the context they appear in. All datasets for training and evaluating models for EL consist of convenience samples, such as news articles and tweets, that propagate the prior probability bias of the entity distribution towards more frequently occurring entities. It was previously shown that the performance of the EL systems on such datasets is overestimated since it is possible to obtain higher accuracy scores by merely learning the prior. To provide a more adequate evaluation benchmark, we introduce the ShadowLink dataset, which includes 16K short text snippets annotated with entity mentions. We evaluate and report the performance of popular EL systems on the ShadowLink benchmark. The results show a considerable difference in accuracy between more and less common entities for all of the EL systems under evaluation, demonstrating the effects of prior probability bias and entity overshadowing.
Abstract（参考訳）: エンティティの曖昧さ (ED) はエンティティリンク(EL)の最終段階であり、候補となるエンティティが出現するコンテキストに応じてリランクされる。 elのモデルのトレーニングと評価のためのすべてのデータセットは、ニュース記事やツイートのような便利なサンプルで構成されており、より頻繁に発生するエンティティに対するエンティティ分布の以前の確率バイアスを広めている。このようなデータセット上でのELシステムの性能は,事前学習だけで高い精度のスコアを得ることができるため,過大評価されている。より適切な評価ベンチマークとして,エンティティ参照に注釈を付けた16Kの短いテキストスニペットを含むShadowLinkデータセットを導入する。我々はShadowLinkベンチマークで人気のあるELシステムの性能を評価し報告する。その結果, 評価対象のELシステムにおいて, 既往の確率バイアスとエンティティのオーバーシャドーイングの影響を実証し, 共通エンティティの精度に有意な差が認められた。

関連論文リスト

ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences via Tournament Graph Reconstruction [25.85736569130897]
大規模言語モデル(LLM)のペアワイズ評価は、オープンエンドタスクのベンチマークにおいて支配的なパラダイムとなっている。この重要な問題は、本質的に曖昧な選好ペアを含む低品質データに起因していることを示す。トーナメントグラフとしてペアの選好をモデル化する,原則付きグラフ理論フレームワークであるESSPRを提案する。
論文参考訳（メタデータ） (2025-05-23T10:00:03Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts [0.6282171844772422]
多くのLarge Language Models(LLM)のトレーニングデータは、テストデータによって汚染される。公開ベンチマークスコアは必ずしもモデルプロパティを正確に評価するとは限らない。
論文参考訳（メタデータ） (2024-10-11T20:46:56Z)
Real World Conversational Entity Linking Requires More Than Zeroshots [50.5691094768954]
本研究では,資源制約下でのELモデルの有効性を評価するための評価シナリオを設計する。本稿では、Fandomと新しいゼロショット対話型エンティティリンクデータセットを用いて、ELモデルの未知KBへの一般化能力を評価する。その結果,既存のゼロショットELモデルでは,事前トレーニングなしで新しいドメイン固有KBを導入するとフェールすることがわかった。
論文参考訳（メタデータ） (2024-09-02T10:37:53Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。 GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文参考訳（メタデータ） (2024-04-02T04:27:54Z)
A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking Systems [4.4351901934764975]
エンティティリンクシステムの評価は、システムが特定のアプリケーションに対してどのように機能するかについてほとんど語らないことが多い。既存のさまざまなエンド・ツー・エンド・エンティティ・リンカについて,より有意義で公平な評価を行う。評価は、上記の問題を様々な程度に示すために広く使われているベンチマークと、2つの新しいベンチマークに基づいて行われる。
論文参考訳（メタデータ） (2023-05-24T09:20:15Z)
Focusing on Context is NICE: Improving Overshadowed Entity Disambiguation [43.82625203429496]
NICEは、コンテキストを活用するためにエンティティタイプ情報を使用し、周波数ベースの事前のオーバーリライスを避ける。実験の結果,NICEは,頻繁なエンティティに対して競争力を持ちながら,オーバーシャドードエンティティ上で最高のパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2022-10-12T13:05:37Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文参考訳（メタデータ） (2021-10-12T17:58:59Z)
Doing Great at Estimating CATE? On the Neglected Assumptions in Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文参考訳（メタデータ） (2021-07-28T13:21:27Z)
A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文参考訳（メタデータ） (2020-10-30T15:09:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。