論文の概要: On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion
- arxiv url: http://arxiv.org/abs/2504.08970v1
- Date: Fri, 11 Apr 2025 20:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:33.783438
- Title: On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion
- Title(参考訳): 知識グラフ補完のための埋め込みモデルの大規模評価について
- Authors: Nasim Shirvani-Mahdavi, Farahnaz Akrami, Chengkai Li,
- Abstract要約: 知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されているが、その評価は非現実的なベンチマークによって制限されている。
標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
- 参考スコア(独自算出の注目度): 1.2703808802607108
- License:
- Abstract: Knowledge graph embedding (KGE) models are extensively studied for knowledge graph completion, yet their evaluation remains constrained by unrealistic benchmarks. Commonly used datasets are either faulty or too small to reflect real-world data. Few studies examine the role of mediator nodes, which are essential for modeling n-ary relationships, or investigate model performance variation across domains. Standard evaluation metrics rely on the closed-world assumption, which penalizes models for correctly predicting missing triples, contradicting the fundamental goals of link prediction. These metrics often compress accuracy assessment into a single value, obscuring models' specific strengths and weaknesses. The prevailing evaluation protocol operates under the unrealistic assumption that an entity's properties, for which values are to be predicted, are known in advance. While alternative protocols such as property prediction, entity-pair ranking and triple classification address some of these limitations, they remain underutilized. This paper conducts a comprehensive evaluation of four representative KGE models on large-scale datasets FB-CVT-REV and FB+CVT-REV. Our analysis reveals critical insights, including substantial performance variations between small and large datasets, both in relative rankings and absolute metrics, systematic overestimation of model capabilities when n-ary relations are binarized, and fundamental limitations in current evaluation protocols and metrics.
- Abstract(参考訳): 知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されているが、その評価は非現実的なベンチマークによって制限されている。
一般的に使用されるデータセットは、実世界のデータを反映するには欠陥があるか小さすぎるかのいずれかである。
n-ary関係のモデル化に不可欠なメディエータノードの役割や,ドメイン間のモデル性能の変動について検討する研究はほとんどない。
標準的な評価基準はクローズドワールドの仮定に依存しており、リンク予測の基本的な目標に反し、行方不明の三重項を正しく予測するためのモデルをペナルティ化する。
これらの指標はしばしば精度評価を1つの値に圧縮し、モデルの特定の強度と弱点を隠蔽する。
一般的な評価プロトコルは、価値が予測されるエンティティのプロパティが事前に知られているという非現実的な仮定の下で機能する。
プロパティ予測、エンティティペアランキング、トリプル分類といった代替プロトコルはこれらの制限のいくつかに対処するが、未利用のままである。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
本分析では,n-ary関係が二項化されている場合のモデル能力の体系的過大評価,現在の評価プロトコルと測定基準の基本的な制限など,大規模データセットと大規模データセットの相対的ランク付けと絶対値の双方のパフォーマンス変化について,重要な知見を明らかにした。
関連論文リスト
- Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Developing a Dataset-Adaptive, Normalized Metric for Machine Learning Model Assessment: Integrating Size, Complexity, and Class Imbalance [0.0]
精度、F1スコア、精度といった従来のメトリクスは、機械学習モデルを評価するために頻繁に使用される。
サイズ、特徴次元、クラス不均衡、信号対雑音比といったデータセット特性を取り入れたデータセット適応型正規化メトリックを示す。
論文 参考訳(メタデータ) (2024-12-10T07:10:00Z) - Conformal Prediction for Federated Graph Neural Networks with Missing Neighbor Information [2.404163279345609]
本研究は,連合グラフ学習へのコンフォーマル予測の適用性を拡張した。
分散サブグラフにおけるリンク不足問題に対処し、CPセットサイズに対する悪影響を最小限に抑える。
本稿では,欠落したデータに対する負の影響を軽減するために,変分オートエンコーダに基づく近隣住民の再構築手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T20:22:25Z) - On Evaluation of Vision Datasets and Models using Human Competency Frameworks [20.802372291783488]
アイテム応答理論(IRT)は、モデルと各データセット項目のアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークである。
モデルキャリブレーションを評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-06T06:20:11Z) - Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets [2.5999037208435705]
数値リテラルを組み込んだリンク予測モデルは、既存のベンチマークデータセットに対してわずかに改善されている。
モデルが数値リテラルを使用するのに実際に優れているのか、あるいはグラフ構造を利用するのに優れているのかは、不明である。
本稿では,数値リテラルを組み込んだLPモデルの評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:55:33Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。