論文の概要: KG-EDAS: A Meta-Metric Framework for Evaluating Knowledge Graph Completion Models
- arxiv url: http://arxiv.org/abs/2508.15357v1
- Date: Thu, 21 Aug 2025 08:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.239783
- Title: KG-EDAS: A Meta-Metric Framework for Evaluating Knowledge Graph Completion Models
- Title(参考訳): KG-EDAS:知識グラフ補完モデル評価のためのメタメトリックフレームワーク
- Authors: Haji Gul, Abul Ghani Naim, Ajaz Ahmad Bhat,
- Abstract要約: 知識グラフ(KG)を評価する上での大きな課題は、複数のデータセットとメトリクスのパフォーマンスを比較することだ。
我々は,平均解からの距離に基づくKG評価を提案し,マルチメトリック・マルチデータセットのパフォーマンスを統一的なランキングに組み込む。
EDASは、より情報のあるモデル選択をサポートし、データセット間の評価において公平性を促進するグローバルな視点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Graphs (KGs) enable applications in various domains such as semantic search, recommendation systems, and natural language processing. KGs are often incomplete, missing entities and relations, an issue addressed by Knowledge Graph Completion (KGC) methods that predict missing elements. Different evaluation metrics, such as Mean Reciprocal Rank (MRR), Mean Rank (MR), and Hit@k, are commonly used to assess the performance of such KGC models. A major challenge in evaluating KGC models, however, lies in comparing their performance across multiple datasets and metrics. A model may outperform others on one dataset but underperform on another, making it difficult to determine overall superiority. Moreover, even within a single dataset, different metrics such as MRR and Hit@1 can yield conflicting rankings, where one model excels in MRR while another performs better in Hit@1, further complicating model selection for downstream tasks. These inconsistencies hinder holistic comparisons and highlight the need for a unified meta-metric that integrates performance across all metrics and datasets to enable a more reliable and interpretable evaluation framework. To address this need, we propose KG Evaluation based on Distance from Average Solution (EDAS), a robust and interpretable meta-metric that synthesizes model performance across multiple datasets and diverse evaluation criteria into a single normalized score ($M_i \in [0,1]$). Unlike traditional metrics that focus on isolated aspects of performance, EDAS offers a global perspective that supports more informed model selection and promotes fairness in cross-dataset evaluation. Experimental results on benchmark datasets such as FB15k-237 and WN18RR demonstrate that EDAS effectively integrates multi-metric, multi-dataset performance into a unified ranking, offering a consistent, robust, and generalizable framework for evaluating KGC models.
- Abstract(参考訳): 知識グラフ(KG)は、セマンティック検索、レコメンデーションシステム、自然言語処理など、さまざまな分野のアプリケーションを可能にする。
KGは、しばしば不完全で、エンティティとリレーションが欠落している。これは、欠落した要素を予測する知識グラフ補完(KGC)メソッドによって解決される問題である。
平均相互ランク(MRR)、平均ランク(MR)、Hit@kなどの異なる評価指標は、一般的にそのようなKGCモデルの性能を評価するために使用される。
しかしながら、KGCモデルを評価する上での大きな課題は、複数のデータセットとメトリクスのパフォーマンスを比較することである。
モデルは、あるデータセットで他より優れているが、別のデータセットでは劣っているため、全体的な優位性を決定するのが難しくなる。
さらに、単一のデータセット内でも、MRRやHit@1のようなさまざまなメトリクスが競合するランキングを生成できる。
これらの矛盾は全体的な比較を妨げ、信頼性と解釈可能な評価フレームワークを実現するために、すべてのメトリクスとデータセットのパフォーマンスを統合する統一されたメタメトリックの必要性を強調します。
このニーズに対処するために、複数のデータセットにわたるモデル性能と多様な評価基準を1つの正規化スコア(M_i \in [0,1]$)に合成する頑健で解釈可能なメタメトリックである、平均解からの距離に基づくKG評価(EDAS)を提案する。
パフォーマンスの独立した側面に焦点を当てた従来のメトリクスとは異なり、EDASは、より情報のあるモデル選択をサポートし、データセット間の評価における公平性を促進するグローバルな視点を提供する。
FB15k-237やWN18RRのようなベンチマークデータセットの実験結果は、EDASが効果的にマルチメトリック、マルチデータセットのパフォーマンスを統一されたランキングに統合し、一貫した、堅牢で一般化可能なKGCモデル評価フレームワークを提供することを示した。
関連論文リスト
- Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T21:34:18Z) - On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion [1.2703808802607108]
知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されている。
標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
論文 参考訳(メタデータ) (2025-04-11T20:49:02Z) - Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。
絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。
本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文 参考訳(メタデータ) (2025-03-18T15:40:18Z) - Multiview graph dual-attention deep learning and contrastive learning for multi-criteria recommender systems [0.8575004906002217]
本稿では,各エッジがユーザによる項目の基準値の1つを表すマルチエッジ二部グラフをベースとした,マルチキュートリリア・レコメンダシステムのための新しい表現を提案する。
我々は、各ビューとグラフ全体の正と負のサンプルを区別するために、局所的および大域的コントラスト学習を採用する。
提案手法を実世界の2つのデータセット上で評価し,項目評価予測に基づいて評価を行った。
論文 参考訳(メタデータ) (2025-02-26T16:25:58Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - KGxBoard: Explainable and Interactive Leaderboard for Evaluation of
Knowledge Graph Completion Models [76.01814380927507]
KGxBoardは、データの意味のあるサブセットを詳細に評価するためのインタラクティブなフレームワークである。
実験では,KGxBoardを用いることで,標準平均シングルスコアメトリクスでは検出が不可能であったことを強調した。
論文 参考訳(メタデータ) (2022-08-23T15:11:45Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。