論文の概要: COMBO: A Complete Benchmark for Open KG Canonicalization
- arxiv url: http://arxiv.org/abs/2302.03905v1
- Date: Wed, 8 Feb 2023 06:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:04:07.035974
- Title: COMBO: A Complete Benchmark for Open KG Canonicalization
- Title(参考訳): COMBO: Open KG標準化のための完全なベンチマーク
- Authors: Chengyue Jiang, Yong Jiang, Weiqi Wu, Yuting Zheng, Pengjun Xie, Kewei
Tu
- Abstract要約: オープンナレッジグラフ(KG)は、何百万もの原文から抽出された(対象、関係、対象)3重データからなる。
対象名詞句と対象名詞句とオープンなKGの関係は、重度の冗長性と曖昧さを持ち、正準化する必要がある。
オープンKG標準化のための完全ベンチマークであるCOMBOを提案する。
- 参考スコア(独自算出の注目度): 44.01719343528974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open knowledge graph (KG) consists of (subject, relation, object) triples
extracted from millions of raw text. The subject and object noun phrases and
the relation in open KG have severe redundancy and ambiguity and need to be
canonicalized. Existing datasets for open KG canonicalization only provide gold
entity-level canonicalization for noun phrases. In this paper, we present
COMBO, a Complete Benchmark for Open KG canonicalization. Compared with
existing datasets, we additionally provide gold canonicalization for relation
phrases, gold ontology-level canonicalization for noun phrases, as well as
source sentences from which triples are extracted. We also propose metrics for
evaluating each type of canonicalization. On the COMBO dataset, we empirically
compare previously proposed canonicalization methods as well as a few simple
baseline methods based on pretrained language models. We find that properly
encoding the phrases in a triple using pretrained language models results in
better relation canonicalization and ontology-level canonicalization of the
noun phrase. We release our dataset, baselines, and evaluation scripts at
https://github.com/jeffchy/COMBO/tree/main.
- Abstract(参考訳): オープンナレッジグラフ(KG)は、何百万もの原文から抽出された(対象、関係、対象)3重データからなる。
主語と対象名詞句とオープンkgにおける関係は深刻な冗長性と曖昧さを持ち、正統化される必要がある。
既存のKG標準化データセットは、名詞句のゴールドエンティティレベル標準化のみを提供する。
本稿では, Open KG 標準化のための完全ベンチマーク COMBO を提案する。
既存のデータセットと比較して,関係句に対する金正準化,名詞句に対する金オントロジーレベルの正準化,三重項を抽出した元文なども提供する。
また,各種類の正準化を評価する指標を提案する。
COMBOデータセットでは,従来提案されていた正規化手法と,事前学習した言語モデルに基づく単純なベースライン手法を実証的に比較する。
事前学習された言語モデルを用いて三重項を適切にエンコードすると、名詞句の正準化とオントロジーレベルの正準化がより良くなる。
私たちはデータセット、ベースライン、評価スクリプトをhttps://github.com/jeffchy/COMBO/tree/mainでリリースしています。
関連論文リスト
- Learning Rules from KGs Guided by Language Models [48.858741745144044]
ルール学習手法は、潜在的に欠落する事実を予測するために適用することができる。
規則のランク付けは、高度に不完全あるいは偏りのあるKGよりも特に難しい。
近年のLanguage Models (LM) の台頭により、いくつかの研究が、LMがKG補完の代替手段として利用できると主張している。
論文 参考訳(メタデータ) (2024-09-12T09:27:36Z) - Knowledge Graph Completion using Structural and Textual Embeddings [0.0]
本稿では,知識グラフ内のテキスト情報と構造情報の両方を利用する関係予測モデルを提案する。
本手法では,歩行に基づく埋め込みと言語モデル埋め込みを統合し,ノードを効果的に表現する。
本研究では,広く利用されているデータセットで評価した場合,関係予測タスクにおける競合結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-04-24T21:04:14Z) - Joint Open Knowledge Base Canonicalization and Linking [24.160755953937763]
オープンナレッジベースにおける名詞句(NP)と関係句(RP)は正規化されていない。
本稿では,因子グラフモデルに基づく新しいフレームワークJOCLを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:38:58Z) - Clustering Semantic Predicates in the Open Research Knowledge Graph [0.0]
オープンリサーチ知識グラフ(ORKG)のリソースに関する述語を推奨するために、2つのAIベースのクラスタリングアルゴリズムをカスタマイズするアプローチについて述べる。
線形実行時の性能を比較的高い精度で再現する実験は,非常に有望な結果を示した。
この研究は、44の研究分野にまたがる学術知識のセマンティフィケーションのための一般的なセマンティフィケーションパターンとして、自動的に緩やかに蓄積する述語群に対する新たな洞察を提供する。
論文 参考訳(メタデータ) (2022-10-05T05:48:39Z) - KGxBoard: Explainable and Interactive Leaderboard for Evaluation of
Knowledge Graph Completion Models [76.01814380927507]
KGxBoardは、データの意味のあるサブセットを詳細に評価するためのインタラクティブなフレームワークである。
実験では,KGxBoardを用いることで,標準平均シングルスコアメトリクスでは検出が不可能であったことを強調した。
論文 参考訳(メタデータ) (2022-08-23T15:11:45Z) - Multi-View Clustering for Open Knowledge Base Canonicalization [9.976636206355394]
大規模オープンナレッジベース(OKB)における名詞句と関係句は標準化されていない。
CMVCは、知識の2つのビューを協調的に活用し、OKBを標準化するための新しい教師なしフレームワークである。
我々は,複数の実世界のOKBデータセットに対して,最先端の手法に対する広範な実験を通じて,我々のフレームワークの優位性を実証する。
論文 参考訳(メタデータ) (2022-06-22T14:23:16Z) - MEKER: Memory Efficient Knowledge Embedding Representation for Link
Prediction and Question Answering [65.62309538202771]
知識グラフ(KG)は、事実を象徴的に構造化した記憶装置である。
KG埋め込みには、実世界の暗黙的な情報を必要とするNLPタスクで使用される簡潔なデータが含まれている。
リンク予測タスクとKGに基づく質問応答においてSOTAに比較可能な性能をもたらすメモリ効率のよいKG埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:47:03Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Joint Entity and Relation Canonicalization in Open Knowledge Graphs
using Variational Autoencoders [11.259587284318835]
オープンナレッジグラフの名詞句と関係句は正規化されず、冗長で曖昧な主語関係対象のトリプルが爆発する。
まず、名詞句と関係句の両方の埋め込み表現を生成し、次にクラスタリングアルゴリズムを使用して、埋め込みを機能としてグループ化します。
本研究では,組込みとクラスタ割り当ての両方をエンドツーエンドアプローチで学習する共同モデルであるCUVA(Canonicalizing Using Variational AutoEncoders)を提案する。
論文 参考訳(メタデータ) (2020-12-08T22:58:30Z) - Graph Structured Network for Image-Text Matching [127.68148793548116]
微粒化対応学習のためのグラフ構造化マッチングネットワークを提案する。
GSMNは、明示的にオブジェクト、関係、属性を構造化されたフレーズとしてモデル化する。
実験により、GSMNはベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-01T08:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。