論文の概要: How Sharp and Bias-Robust is a Model? Dual Evaluation Perspectives on Knowledge Graph Completion
- arxiv url: http://arxiv.org/abs/2512.06296v1
- Date: Sat, 06 Dec 2025 04:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.291197
- Title: How Sharp and Bias-Robust is a Model? Dual Evaluation Perspectives on Knowledge Graph Completion
- Title(参考訳): シャープとバイアス・ロバストはモデルか?知識グラフの完全性に関する二重評価
- Authors: Sooho Moon, Yunyong Ko,
- Abstract要約: 知識グラフ補完(KGC)は、観測されたKGから行方不明の事実を予測することを目的としている。
既存のメトリクスは、KGC評価の2つの重要な視点を見落としている。
新たな評価枠組み(PROBE)を提案する。
実世界のKGの実験により、既存のメトリクスはKGCモデルの精度を過大または過小評価する傾向があることが明らかになった。
- 参考スコア(独自算出の注目度): 0.5271072635937927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graph completion (KGC) aims to predict missing facts from the observed KG. While a number of KGC models have been studied, the evaluation of KGC still remain underexplored. In this paper, we observe that existing metrics overlook two key perspectives for KGC evaluation: (A1) predictive sharpness -- the degree of strictness in evaluating an individual prediction, and (A2) popularity-bias robustness -- the ability to predict low-popularity entities. Toward reflecting both perspectives, we propose a novel evaluation framework (PROBE), which consists of a rank transformer (RT) estimating the score of each prediction based on a required level of predictive sharpness and a rank aggregator (RA) aggregating all the scores in a popularity-aware manner. Experiments on real-world KGs reveal that existing metrics tend to over- or under-estimate the accuracy of KGC models, whereas PROBE yields a comprehensive understanding of KGC models and reliable evaluation results.
- Abstract(参考訳): 知識グラフ補完(KGC)は、観測されたKGから行方不明の事実を予測することを目的としている。
多くのKGCモデルが研究されているが、KGCの評価はいまだ過小評価されている。
本稿では,(A1)予測的シャープネス,(A2)個人予測の厳格度,(A2)人気バイアスの頑健さ,低人気エンティティの予測能力の2つの重要な視点を,既存の指標が見落としていることを観察する。
両視点を反映した新しい評価フレームワーク(PROBE)を提案する。このフレームワークは,予測のシャープネスの要求レベルに基づいて各予測のスコアを推定するランクトランスフォーマー(RT)と,すべてのスコアを人気の高い方法で集約するランクアグリゲータ(RA)から構成される。
実世界のKGの実験では、既存のメトリクスはKGCモデルの精度を過大または過小評価する傾向にあるが、PROBEはKGCモデルの包括的な理解と信頼性評価結果をもたらす。
関連論文リスト
- Concept Regions Matter: Benchmarking CLIP with a New Cluster-Importance Approach [20.898059440239603]
クラスタベースの概念重要度(CCI)は、新しい解釈可能性手法である。
CCIは、忠実度ベンチマークの新たな最先端を定めている。
今回,18種類のCLIPの包括的評価を行った。
論文 参考訳(メタデータ) (2025-11-17T05:01:24Z) - Evaluating Cumulative Spectral Gradient as a Complexity Measure [0.0]
データセットの複雑性尺度としてCSG(Cumulative Spectral Gradient)が提案された。
本研究では,標準知識グラフリンク予測ベンチマークを用いてCSGの挙動を厳格に評価する。
論文 参考訳(メタデータ) (2025-09-02T15:10:25Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion [1.2703808802607108]
知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されている。
標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
論文 参考訳(メタデータ) (2025-04-11T20:49:02Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Evaluating Probabilistic Classifiers: The Triptych [62.997667081978825]
本稿では,予測性能の異なる相補的な側面に焦点をあてた診断グラフィックのトリチチを提案し,研究する。
信頼性図は校正に対処し、受信動作特性(ROC)曲線は識別能力を診断し、マーフィー図は全体的な予測性能と価値を視覚化する。
論文 参考訳(メタデータ) (2023-01-25T19:35:23Z) - KGxBoard: Explainable and Interactive Leaderboard for Evaluation of
Knowledge Graph Completion Models [76.01814380927507]
KGxBoardは、データの意味のあるサブセットを詳細に評価するためのインタラクティブなフレームワークである。
実験では,KGxBoardを用いることで,標準平均シングルスコアメトリクスでは検出が不可能であったことを強調した。
論文 参考訳(メタデータ) (2022-08-23T15:11:45Z) - Evaluating the Calibration of Knowledge Graph Embeddings for Trustworthy
Link Prediction [16.553439385317876]
知識グラフ埋め込み(KGE)モデルによる予測の信頼性について検討する。
我々はまず、知識グラフに存在しない予測三重項が偽であるとして、標準閉世界仮定(CWA)に基づいて評価を行う。
次に、より現実的で挑戦的なオープンワールド仮定(OWA)を導入する。
論文 参考訳(メタデータ) (2020-04-02T17:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。