論文の概要: SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging
Semantic, Lexical, and Hierarchical Features
- arxiv url: http://arxiv.org/abs/2309.11791v2
- Date: Wed, 27 Sep 2023 11:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:27:08.686927
- Title: SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging
Semantic, Lexical, and Hierarchical Features
- Title(参考訳): slhcat:セマンティック、語彙、階層的機能を活用したwikipediaのカテゴリとリストをdbpediaにマッピングする
- Authors: Zhaoyi Wang, Zhenyang Zhang, Jiaxin Qin, Mizuho Iwaihara
- Abstract要約: DBPediaクラスはWikipediaのカテゴリやリストに割り当てられる。
CaLiGraphの既存のアプローチは、不完全できめ細かいマッピングを生み出している。
我々のモデルSLHCatは、3000の微細なCaLiGraph-DBpediaマッピングペアをアノテートすることで構築されたベンチマークデータセットで評価される。
- 参考スコア(独自算出の注目度): 0.7680851067579922
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Wikipedia articles are hierarchically organized through categories and lists,
providing one of the most comprehensive and universal taxonomy, but its open
creation is causing redundancies and inconsistencies. Assigning DBPedia classes
to Wikipedia categories and lists can alleviate the problem, realizing a large
knowledge graph which is essential for categorizing digital contents through
entity linking and typing. However, the existing approach of CaLiGraph is
producing incomplete and non-fine grained mappings. In this paper, we tackle
the problem as ontology alignment, where structural information of knowledge
graphs and lexical and semantic features of ontology class names are utilized
to discover confident mappings, which are in turn utilized for finetuing
pretrained language models in a distant supervision fashion. Our method SLHCat
consists of two main parts: 1) Automatically generating training data by
leveraging knowledge graph structure, semantic similarities, and named entity
typing. 2) Finetuning and prompt-tuning of the pre-trained language model BERT
are carried out over the training data, to capture semantic and syntactic
properties of class names. Our model SLHCat is evaluated over a benchmark
dataset constructed by annotating 3000 fine-grained CaLiGraph-DBpedia mapping
pairs. SLHCat is outperforming the baseline model by a large margin of 25% in
accuracy, offering a practical solution for large-scale ontology mapping.
- Abstract(参考訳): wikipediaの記事はカテゴリやリストを通じて階層的に整理され、最も包括的で普遍的な分類の1つを提供しているが、そのオープンな作成は冗長性と不一致を引き起こしている。
DBPediaクラスをWikipediaのカテゴリやリストに割り当てることで、エンティティリンクとタイピングを通じてデジタルコンテンツを分類するのに不可欠な大きな知識グラフを実現することができる。
しかし、CaLiGraphの既存のアプローチは、不完全できめ細かいマッピングを生み出している。
本稿では,オントロジー・アライメント(オントロジー・アライメント)の課題として,知識グラフの構造情報と,オントロジー・クラス名の語彙的・意味的特徴を利用して,信頼度の高いマッピングを発見する。
slhcat は2つの主要な部分からなる。
1)知識グラフ構造,意味的類似性,名前付きエンティティタイピングを活用した学習データの自動生成。
2) 学習済み言語モデルBERTの微調整と迅速な調整をトレーニングデータ上で行い, クラス名の意味的・統語的特性を捉える。
我々のモデルSLHCatは、3000の微細なCaLiGraph-DBpediaマッピングペアをアノテートすることで構築されたベンチマークデータセットで評価される。
slhcatはベースラインモデルを25%の精度で上回っており、大規模なオントロジーマッピングの実用的なソリューションを提供している。
関連論文リスト
- Refining Wikidata Taxonomy using Large Language Models [2.392329079182226]
我々は,Large Language Models (LLM) とグラフマイニング技術を組み合わせたWikidata分類の新バージョンであるWiKCを提案する。
リンクを切断したり、クラスをマージしたりといった分類の操作は、オープンソースのLCM上でゼロショットプロンプトの助けを借りて行われる。
論文 参考訳(メタデータ) (2024-09-06T06:53:45Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Automatic Semantic Modeling for Structural Data Source with the Prior
Knowledge from Knowledge Base [15.075047172918547]
本稿では、機械学習、グラフマッチング、修正された頻繁なサブグラフマイニングを用いて、構造化データソースを意味的に注釈付けする新しい手法を提案する。
提案手法は,少数のモデルしか知られていない難解な場合において,最先端の2つのソリューションより優れている。
論文 参考訳(メタデータ) (2022-12-21T10:54:59Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Entity Type Prediction Leveraging Graph Walks and Entity Descriptions [4.147346416230273]
textitGRANDは、RDF2vecの異なるグラフウォーク戦略とテキストエンティティ記述を利用したエンティティ型付けの新しいアプローチである。
提案手法は,細粒度クラスと粗粒度クラスの両方において,KGにおけるエンティティ型付けのためのベンチマークデータセットDBpediaとFIGERのベースラインアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-07-28T13:56:55Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Classifying Wikipedia in a fine-grained hierarchy: what graphs can
contribute [0.5530212768657543]
我々は、ウィキペディアを細かな名前付きエンティティオントロジー(NE)に分類するために、グラフ(構造)情報を統合するタスクに対処する。
日本語ウィキペディアから抽出した22,000ページのサブセットを手作業でラベル付けして,大規模な実践実験を行う。
この結果から,グラフ情報の統合は,入力特徴空間の空白度を低減することに成功し,従来の作業と同等かそれ以上の分類結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。