論文の概要: Evaluating Language Models for Knowledge Base Completion
- arxiv url: http://arxiv.org/abs/2303.11082v1
- Date: Mon, 20 Mar 2023 13:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:26:01.157349
- Title: Evaluating Language Models for Knowledge Base Completion
- Title(参考訳): 知識ベース補完のための言語モデルの評価
- Authors: Blerta Veseli, Sneha Singhania, Simon Razniewski, Gerhard Weikum
- Abstract要約: 教師なし知識ベース補完(KBC)のための言語モデル(LM)が最近提案されている。
我々は,LMのKBCポテンシャルを現実的に評価するための,新しい,より挑戦的なベンチマークデータセットと方法論を導入する。
LMトレーニングにおいて,ほとんどの事実が直接観察されなかった関係においても,LMは驚くほど強い一般化能力を有することがわかった。
- 参考スコア(独自算出の注目度): 32.87131159997359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured knowledge bases (KBs) are a foundation of many intelligent
applications, yet are notoriously incomplete. Language models (LMs) have
recently been proposed for unsupervised knowledge base completion (KBC), yet,
despite encouraging initial results, questions regarding their suitability
remain open. Existing evaluations often fall short because they only evaluate
on popular subjects, or sample already existing facts from KBs. In this work,
we introduce a novel, more challenging benchmark dataset, and a methodology
tailored for a realistic assessment of the KBC potential of LMs. For automated
assessment, we curate a dataset called WD-KNOWN, which provides an unbiased
random sample of Wikidata, containing over 3.9 million facts. In a second step,
we perform a human evaluation on predictions that are not yet in the KB, as
only this provides real insights into the added value over existing KBs. Our
key finding is that biases in dataset conception of previous benchmarks lead to
a systematic overestimate of LM performance for KBC. However, our results also
reveal strong areas of LMs. We could, for example, perform a significant
completion of Wikidata on the relations nativeLanguage, by a factor of ~21
(from 260k to 5.8M) at 82% precision, usedLanguage, by a factor of ~2.1 (from
2.1M to 6.6M) at 82% precision, and citizenOf by a factor of ~0.3 (from 4.2M to
5.3M) at 90% precision. Moreover, we find that LMs possess surprisingly strong
generalization capabilities: even on relations where most facts were not
directly observed in LM training, prediction quality can be high.
- Abstract(参考訳): 構造化知識ベース(KB)は多くのインテリジェントアプリケーションの基礎であるが、不完全である。
言語モデル (LM) は非教師なし知識ベース補完 (KBC) のために最近提案されているが、初期結果の奨励にもかかわらず、その適合性に関する疑問は未解決のままである。
既存の評価は、人気のある主題のみを評価するため、またはKBから既に存在する事実をサンプリングするため、しばしば不足する。
本研究では,LMのKBCポテンシャルを現実的に評価するための,新しい,より挑戦的なベンチマークデータセットと方法論を紹介する。
自動評価のために、私たちは、ウィキデータの偏りのないランダムなサンプルを提供するwd-knownというデータセットをキュレートします。
第2のステップでは、既存のKBに対する付加価値に関する真の洞察を提供するため、KBにない予測について人間による評価を行う。
我々の重要な発見は、以前のベンチマークのデータセット概念のバイアスがKBCのLM性能を体系的に過大評価することである。
しかし,この結果から,lmsの強い領域が明らかとなった。
例えば、NativeLanguageに関するWikidataを82%の精度で ~21 (260kから5.8M)、UltimateLanguageを82%の精度で ~2.1 (2.1Mから6.6M)、CitizenOfを90%の精度で ~0.3 (4.2Mから5.3M) で実行することができる。
さらに,LMには驚くほど強い一般化能力があり,ほとんどの事実がLMトレーニングで直接観察されなかった関係においても,予測品質が高いことが判明した。
関連論文リスト
- The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - How Good is Zero-Shot MT Evaluation for Low Resource Indian Languages? [35.368257850926184]
Assamese、Kannada、Maithili、Punjabiといった低リソースのインドの言語に焦点を当てたゼロショット評価に重点を置いている。
ゼロショット性能を示すことが知られている学習指標であっても、人間のアノテーションとKendall TauとPearsonの相関は0.32と0.45である。
論文 参考訳(メタデータ) (2024-06-06T09:28:08Z) - Evaluating the Knowledge Base Completion Potential of GPT [29.75708908603862]
GPT-3では、Wikidataを2700万の事実を90%の精度で拡張することができる。
適切なしきい値設定により、GPT-3 は Wikidata を 90% の精度で 2700万 の事実で拡張できることを示す。
論文 参考訳(メタデータ) (2023-10-23T10:15:13Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - A Review on Language Models as Knowledge Bases [55.035030134703995]
近年,知識ベース (KB) としての事前訓練言語モデル (LM) の利用に対する,NLPコミュニティへの関心が高まっている。
論文 参考訳(メタデータ) (2022-04-12T18:35:23Z) - Ranking vs. Classifying: Measuring Knowledge Base Completion Quality [10.06803520598035]
KBCの品質を反映するためには,バイナリ予測の考慮が不可欠である。
KBから欠落した現実世界の実体の現実的なシナリオをシミュレートする。
我々は,最新のKB埋め込みモデルを新しいベンチマークで評価した。
論文 参考訳(メタデータ) (2021-02-02T17:53:48Z) - Beyond I.I.D.: Three Levels of Generalization for Question Answering on
Knowledge Bases [63.43418760818188]
GrailQA.comは64,331の質問で、新しい大規模で高品質なデータセットをリリースしました。
BERTベースのKBQAモデルを提案する。
データセットとモデルの組み合わせにより、KBQAの一般化におけるBERTのような事前学習されたコンテキスト埋め込みの重要な役割を、初めて徹底的に検証し、実証することが可能になります。
論文 参考訳(メタデータ) (2020-11-16T06:36:26Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。