論文の概要: On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link
Prediction Methods
- arxiv url: http://arxiv.org/abs/2002.06914v4
- Date: Mon, 2 May 2022 16:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:08:38.701002
- Title: On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link
Prediction Methods
- Title(参考訳): ランクに基づくエンティティアライメントやリンク予測手法の評価の曖昧性について
- Authors: Max Berrendorf and Evgeniy Faerman and Laurent Vermue and Volker Tresp
- Abstract要約: 本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメント(Entity Alignment)の2つのファミリについて,より詳しく検討する。
特に、既存のスコアはすべて、異なるデータセット間で結果を比較するのにほとんど役に立たないことを実証する。
これは結果の解釈において様々な問題を引き起こしており、誤解を招く結論を裏付ける可能性がある。
- 参考スコア(独自算出の注目度): 23.88669580362473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we take a closer look at the evaluation of two families of
methods for enriching information from knowledge graphs: Link Prediction and
Entity Alignment. In the current experimental setting, multiple different
scores are employed to assess different aspects of model performance. We
analyze the informativeness of these evaluation measures and identify several
shortcomings. In particular, we demonstrate that all existing scores can hardly
be used to compare results across different datasets. Moreover, we demonstrate
that varying size of the test size automatically has impact on the performance
of the same model based on commonly used metrics for the Entity Alignment task.
We show that this leads to various problems in the interpretation of results,
which may support misleading conclusions. Therefore, we propose adjustments to
the evaluation and demonstrate empirically how this supports a fair,
comparable, and interpretable assessment of model performance. Our code is
available at https://github.com/mberr/rank-based-evaluation.
- Abstract(参考訳): 本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメントの2つのファミリについて,より詳しく検討する。
現在の実験では、モデル性能の異なる側面を評価するために複数の異なるスコアが用いられる。
本研究は,これらの評価尺度の妥当性を分析し,いくつかの問題点を同定する。
特に、既存のスコアは、異なるデータセットで結果を比較するのにほとんど使えないことを実証する。
さらに、テストサイズが変化すると、エンティティアライメントタスクでよく使われるメトリクスに基づいて、同じモデルのパフォーマンスに自動的に影響を与えることを実証する。
結果の解釈には様々な問題があり,誤解を招く結論に支障をきたす可能性がある。
そこで本研究では,評価に対する調整を提案するとともに,モデル性能の公平で比較可能な評価法を実証的に示す。
私たちのコードはhttps://github.com/mberr/rank-based-evaluationで利用可能です。
関連論文リスト
- Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - A Fair and Comprehensive Comparison of Multimodal Tweet Sentiment
Analysis Methods [3.8142537449670963]
本研究は,6つの最先端手法による総合的な実験評価と比較を行った。
結果は、ツイートと対応するイメージの2つの異なる公開ベンチマークデータセットに対して提示される。
論文 参考訳(メタデータ) (2021-06-16T14:44:48Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。