論文の概要: Increasing Coverage and Precision of Textual Information in Multilingual
Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2311.15781v1
- Date: Mon, 27 Nov 2023 12:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:17:15.941885
- Title: Increasing Coverage and Precision of Textual Information in Multilingual
Knowledge Graphs
- Title(参考訳): 多言語知識グラフにおけるテキスト情報のカバレッジと精度の向上
- Authors: Simone Conia and Min Li and Daniel Lee and Umar Farooq Minhas and Ihab
Ilyas and Yunyao Li
- Abstract要約: 知識グラフ自動強化(KGE)の新たな課題について紹介する。
我々は、英語と非英語のテキスト情報の量と品質のギャップを埋めることについて、徹底的な調査を行う。
M-NTAは、機械翻訳(MT)、Web検索(WS)、大規模言語モデル(LLM)を組み合わせた、新しい教師なしアプローチである。
WikiKGE-10は、7つの言語ファミリーにわたる10言語でKGEアプローチを評価する最初の人為的なベンチマークである。
- 参考スコア(独自算出の注目度): 16.997083259185615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent work in Natural Language Processing and Computer Vision has been using
textual information -- e.g., entity names and descriptions -- available in
knowledge graphs to ground neural models to high-quality structured data.
However, when it comes to non-English languages, the quantity and quality of
textual information are comparatively scarce. To address this issue, we
introduce the novel task of automatic Knowledge Graph Enhancement (KGE) and
perform a thorough investigation on bridging the gap in both the quantity and
quality of textual information between English and non-English languages. More
specifically, we: i) bring to light the problem of increasing multilingual
coverage and precision of entity names and descriptions in Wikidata; ii)
demonstrate that state-of-the-art methods, namely, Machine Translation (MT),
Web Search (WS), and Large Language Models (LLMs), struggle with this task;
iii) present M-NTA, a novel unsupervised approach that combines MT, WS, and
LLMs to generate high-quality textual information; and, iv) study the impact of
increasing multilingual coverage and precision of non-English textual
information in Entity Linking, Knowledge Graph Completion, and Question
Answering. As part of our effort towards better multilingual knowledge graphs,
we also introduce WikiKGE-10, the first human-curated benchmark to evaluate KGE
approaches in 10 languages across 7 language families.
- Abstract(参考訳): 自然言語処理とコンピュータビジョンに関する最近の研究では、知識グラフで利用可能なテキスト情報(エンティティ名や記述など)を使用して、高品質な構造化データにニューラルモデルを基礎としている。
しかし、英語以外の言語に関しては、テキスト情報の量と質が比較的少ない。
この問題に対処するために,kge(automated knowledge graph enhancement)という新しいタスクを導入し,英語と非英語言語間のテキスト情報量と品質のギャップの橋渡しについて徹底的に検討する。
より具体的に言えば
一 ウィキデータにおける実体名及び記述の多言語的範囲の増大及び正確性の問題を明らかにすること。
二 機械翻訳(MT)、Web検索(WS)、Large Language Models(LLM)といった最先端の手法がこの課題に苦しむことを実証すること。
三 MT、WS及びLCMを組み合わせて高品質なテキスト情報を生成する新しい非監督的アプローチ、M-NTA
iv) エンティティリンク,ナレッジグラフ補完,質問応答における非英語テキスト情報の多言語カバレッジと精度の向上の影響について検討する。
また、多言語知識グラフの改善に向けた取り組みの一環として、7つの言語ファミリーの10言語でKGEアプローチを評価する最初の人為的なベンチマークであるWikiKGE-10を紹介します。
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Massively Multilingual Language Models for Cross Lingual Fact Extraction
from Low Resource Indian Languages [9.005666503814307]
クロスリンガル情報抽出は、低資源のインド語テキストから英語のトリプルの形で事実情報を抽出することを目的としている。
我々は,F1総合スコア77.46のエンドツーエンド生成アプローチを考案した。
論文 参考訳(メタデータ) (2023-02-09T17:29:56Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training [22.534866015730664]
我々は全英Wikidata KGを言語化した。
Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
論文 参考訳(メタデータ) (2020-10-23T22:14:50Z) - JAKET: Joint Pre-training of Knowledge Graph and Language Understanding [73.43768772121985]
本稿では,知識グラフと言語の両方をモデル化する新しい事前学習フレームワークであるJAKETを提案する。
知識モジュールと言語モジュールは相互に支援するための重要な情報を提供する。
我々の設計により、事前学習されたモデルは、新しいドメインの見知らぬ知識グラフに容易に適応できる。
論文 参考訳(メタデータ) (2020-10-02T05:53:36Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。