論文の概要: Multilingual Fact Linking
- arxiv url: http://arxiv.org/abs/2109.14364v1
- Date: Wed, 29 Sep 2021 11:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 19:04:42.639563
- Title: Multilingual Fact Linking
- Title(参考訳): 多言語ファクトリンク
- Authors: Keshav Kolluru, Martin Rezk, Pat Verga, William Cohen and Partha
Talukdar
- Abstract要約: MFL(Multilingual Fact Linking)の課題について紹介する。
目的は、文章で表現された事実を知識グラフ(KG)の対応する事実にリンクすることである。
このデータセットには、11,293件のWikiData事実と6,429件の英語と6つのインドの言語にまたがる文が含まれている。
- 参考スコア(独自算出の注目度): 1.7661845949769064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-intensive NLP tasks can benefit from linking natural language text
with facts from a Knowledge Graph (KG). Although facts themselves are
language-agnostic, the fact labels (i.e., language-specific representation of
the fact) in the KG are often present only in a few languages. This makes it
challenging to link KG facts to sentences in languages other than the limited
set of languages. To address this problem, we introduce the task of
Multilingual Fact Linking (MFL) where the goal is to link fact expressed in a
sentence to corresponding fact in the KG, even when the fact label in the KG is
not available in the language of the sentence. To facilitate research in this
area, we present a new evaluation dataset, IndicLink. This dataset contains
11,293 linked WikiData facts and 6,429 sentences spanning English and six
Indian languages. We propose a Retrieval+Generation model, ReFCoG, that can
scale to millions of KG facts by combining Dual Encoder based retrieval with a
Seq2Seq based generation model which is constrained to output only valid KG
facts. ReFCoG outperforms standard Retrieval+Re-ranking models by 10.7 pts in
Precision@1. In spite of this gain, the model achieves an overall score of
52.1, showing ample scope for improvement in the task.ReFCoG code and IndicLink
data are available at https://github.com/SaiKeshav/mfl
- Abstract(参考訳): 知識集約型NLPタスクは、自然言語テキストと知識グラフ(KG)の事実をリンクする利点がある。
事実そのものは言語に依存しないが、KGの事実ラベル(すなわち、事実の言語固有の表現)はいくつかの言語にのみ存在する。
これにより、限られた言語のセット以外の言語の文にKG事実をリンクすることは困難になる。
この問題に対処するために,KGの事実ラベルが文の言語で利用できない場合でも,KGで表現された事実と対応する事実とをリンクさせることが目的であるMFL(Multilingual Fact Linking)の課題を紹介する。
この領域の研究を容易にするために、新しい評価データセットIndicLinkを提案する。
このデータセットには11,293件のウィキデータ事実と、英語と6つのインド語にまたがる6,429の文が含まれている。
本稿では,デュアルエンコーダに基づく検索と,有効なkg事実のみを出力するように制約されたseq2seqベースの生成モデルを組み合わせた検索+生成モデルrefcogを提案する。
ReFCoGはPrecision@1で10.7 ptsの標準Retrieval+Re-levelモデルを上回っている。
この利益にもかかわらず、このモデルは52.1の総合スコアを達成し、task.refcogコードとindiclinkデータはhttps://github.com/saikeshav/mflで利用可能である。
関連論文リスト
- Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction [2.6749568255705656]
大規模言語モデル(LLM)における開放的調査のための外挿は2つの重要な問題に遭遇する。
既存の作業は、知識グラフからの情報により、より小さな言語モデルの入力を増大させることによって、この問題に対処しようとするものである。
我々は,モデルが複数の応答で外挿を行うことを可能にするために,新たなタスク,極端なマルチラベルKGリンク予測タスクを提案する。
論文 参考訳(メタデータ) (2024-05-21T10:10:56Z) - BanglaAutoKG: Automatic Bangla Knowledge Graph Construction with Semantic Neural Graph Filtering [6.05977559550463]
知識グラフ(KG)は情報処理や推論アプリケーションに必須であることが証明されている。
世界中で広く使用されているにもかかわらず、Banglaは包括的なデータセットが不足しているため、KGでは比較的不足している。
バングラテキストからベンガルKGを自動構築できる先駆的フレームワークであるBanglaAutoKGを提案する。
論文 参考訳(メタデータ) (2024-04-04T15:31:21Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - Endowing Language Models with Multimodal Knowledge Graph Representations [47.22480859519051]
最近リリースされた VisualSem KG を外部知識リポジトリとして使用しています。
我々は、KGからエンティティを取得し、そのマルチモーダル表現を使用して、下流タスクのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-06-27T10:10:42Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - Few-shot Knowledge Graph-to-Text Generation with Pretrained Language
Models [42.38563175680914]
本稿では,知識グラフ(KG)の事実を記述した自然言語テキストの自動生成方法について検討する。
数ショットの設定を考えると、言語理解と生成において事前学習された言語モデル(PLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2021-06-03T06:48:00Z) - Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training [22.534866015730664]
我々は全英Wikidata KGを言語化した。
Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
論文 参考訳(メタデータ) (2020-10-23T22:14:50Z) - Language Models are Open Knowledge Graphs [75.48081086368606]
近年の深層言語モデルは,事前学習を通じて大規模コーパスから知識を自動取得する。
本稿では,言語モデルに含まれる知識をKGにキャストするための教師なし手法を提案する。
KGは、コーパス上の(微調整なしで)事前訓練された言語モデルの1つの前方パスで構築されていることを示す。
論文 参考訳(メタデータ) (2020-10-22T18:01:56Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。