論文の概要: Ranking vs. Classifying: Measuring Knowledge Base Completion Quality
- arxiv url: http://arxiv.org/abs/2102.06145v1
- Date: Tue, 2 Feb 2021 17:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:32:16.979210
- Title: Ranking vs. Classifying: Measuring Knowledge Base Completion Quality
- Title(参考訳): ランキング vs.
分類:知識ベース完了品質の測定
- Authors: Marina Speranskaya, Martin Schmitt, Benjamin Roth
- Abstract要約: KBCの品質を反映するためには,バイナリ予測の考慮が不可欠である。
KBから欠落した現実世界の実体の現実的なシナリオをシミュレートする。
我々は,最新のKB埋め込みモデルを新しいベンチマークで評価した。
- 参考スコア(独自算出の注目度): 10.06803520598035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge base completion (KBC) methods aim at inferring missing facts from
the information present in a knowledge base (KB) by estimating the likelihood
of candidate facts. In the prevailing evaluation paradigm, models do not
actually decide whether a new fact should be accepted or not but are solely
judged on the position of true facts in a likelihood ranking with other
candidates. We argue that consideration of binary predictions is essential to
reflect the actual KBC quality, and propose a novel evaluation paradigm,
designed to provide more transparent model selection criteria for a realistic
scenario. We construct the data set FB14k-QAQ where instead of single facts, we
use KB queries, i.e., facts where one entity is replaced with a variable, and
construct corresponding sets of entities that are correct answers. We randomly
remove some of these correct answers from the data set, simulating the
realistic scenario of real-world entities missing from a KB. This way, we can
explicitly measure a model's ability to handle queries that have more correct
answers in the real world than in the KB, including the special case of queries
without any valid answer. The latter especially contrasts the ranking setting.
We evaluate a number of state-of-the-art KB embeddings models on our new
benchmark. The differences in relative performance between ranking-based and
classification-based evaluation that we observe in our experiments confirm our
hypothesis that good performance on the ranking task does not necessarily
translate to good performance on the actual completion task. Our results
motivate future work on KB embedding models with better prediction separability
and, as a first step in that direction, we propose a simple variant of TransE
that encourages thresholding and achieves a significant improvement in
classification F1 score relative to the original TransE.
- Abstract(参考訳): 知識ベース補完法(KBC)は,知識ベース(KB)に存在する情報から,候補となる事実の可能性を推定することによって,行方不明な事実を推定することを目的とする。
一般的な評価パラダイムでは、モデルは、新しい事実が受け入れられるべきか否かを実際に決めるのではなく、他の候補と高い順位で真事実の位置でのみ判断される。
我々は,バイナリ予測の考察は実際のkbc品質を反映するために不可欠であり,現実的なシナリオに対してより透過的なモデル選択基準を提供するように設計された新しい評価パラダイムを提案する。
FB14k-QAQというデータセットを構築し、単一の事実の代わりにKBクエリ、すなわち1つのエンティティが変数に置き換えられた事実を使い、正しい答えとなるエンティティの集合を構築します。
我々は、これらの正しい答えのいくつかをデータセットからランダムに取り除き、KBから欠落した現実世界の実体の現実的なシナリオをシミュレートする。
このようにして、KBよりも実際の世界で正しい回答を持つクエリを処理できるモデルの性能を、有効な答えのないクエリの特別なケースを含む、明確に測定することができる。
後者は特にランキング設定と対比する。
我々は,最新のKB埋め込みモデルを新しいベンチマークで評価した。
本実験で観察したランキングと分類に基づく評価の相対的性能の差は,評価課題の良好な性能が必ずしも実際の完了課題の良好な性能をもたらすとは限らないという仮説を裏付けるものである。
本研究は,予測分離性の向上を図ったKB埋め込みモデルの今後の取り組みを動機付け,その第一歩として,しきい値の設定を奨励し,元のTransEと比較してF1スコアの分類を著しく改善する,シンプルなTransEの変種を提案する。
関連論文リスト
- When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Exploring Partial Knowledge Base Inference in Biomedical Entity Linking [0.4798394926736971]
我々はこのシナリオを部分的知識ベース推論と呼ぶ。
我々は, ベンチマークを構築し, 劇的な精度低下によるEL性能の破滅的な劣化を目撃する。
計算オーバーヘッドの少ない2つのNIL問題に対して, 単純かつ効果的に対処する手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T04:31:07Z) - Uncertainty-based Network for Few-shot Image Classification [17.912365063048263]
相互情報の助けを借りて分類結果の不確実性をモデル化する不確実性ベースネットワークを提案する。
不確実性に基づくネットワークは,最先端手法と比較して,分類精度に匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-05-17T07:49:32Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Benchmarking Commonsense Knowledge Base Population with an Effective
Evaluation Dataset [37.02104430195374]
要素が自由テキストの形で存在するCSKB(Commonsense Knowledge Base)に対する推論は、NLPにおいて重要であるが難しい課題である。
我々はCSKB集団タスクを新しい大規模データセットでベンチマークする。
また,グラフ上の推論を行う新しい帰納的コモンセンス推論モデルを提案する。
論文 参考訳(メタデータ) (2021-09-16T02:50:01Z) - Beyond I.I.D.: Three Levels of Generalization for Question Answering on
Knowledge Bases [63.43418760818188]
GrailQA.comは64,331の質問で、新しい大規模で高品質なデータセットをリリースしました。
BERTベースのKBQAモデルを提案する。
データセットとモデルの組み合わせにより、KBQAの一般化におけるBERTのような事前学習されたコンテキスト埋め込みの重要な役割を、初めて徹底的に検証し、実証することが可能になります。
論文 参考訳(メタデータ) (2020-11-16T06:36:26Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。