論文の概要: Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2302.13241v1
- Date: Sun, 26 Feb 2023 05:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:13:48.606405
- Title: Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension
- Title(参考訳): 読解における知識ベースを問う言語間質問
- Authors: Chen Zhang, Yuxuan Lai, Yansong Feng, Xingyu Shen, Haowei Du, Dongyan
Zhao
- Abstract要約: 知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 61.079852289005025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although many large-scale knowledge bases (KBs) claim to contain multilingual
information, their support for many non-English languages is often incomplete.
This incompleteness gives birth to the task of cross-lingual question answering
over knowledge base (xKBQA), which aims to answer questions in languages
different from that of the provided KB. One of the major challenges facing
xKBQA is the high cost of data annotation, leading to limited resources
available for further exploration. Another challenge is mapping KB schemas and
natural language expressions in the questions under cross-lingual settings. In
this paper, we propose a novel approach for xKBQA in a reading comprehension
paradigm. We convert KB subgraphs into passages to narrow the gap between KB
schemas and questions, which enables our model to benefit from recent advances
in multilingual pre-trained language models (MPLMs) and cross-lingual machine
reading comprehension (xMRC). Specifically, we use MPLMs, with considerable
knowledge of cross-lingual mappings, for cross-lingual reading comprehension.
Existing high-quality xMRC datasets can be further utilized to finetune our
model, greatly alleviating the data scarcity issue in xKBQA. Extensive
experiments on two xKBQA datasets in 12 languages show that our approach
outperforms various baselines and achieves strong few-shot and zero-shot
performance. Our dataset and code are released for further research.
- Abstract(参考訳): 多くの大規模知識ベース(kbs)は多言語情報を含むと主張しているが、多くの非英語言語への支持はしばしば不完全である。
この不完全性は、提供されたKBとは異なる言語での質問に答えることを目的とした知識ベース(xKBQA)に対する言語間質問応答のタスクを生み出す。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことであり、さらなる調査のために限られたリソースが利用できるようになる。
もうひとつの課題は、KBスキーマと自然言語表現を、言語間設定で質問にマッピングすることだ。
本稿では,読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
KBサブグラフをパスに変換し,KBスキーマと問合せのギャップを狭めることにより,多言語事前学習言語モデル (MPLM) と言語間機械読解システム (xMRC) の最近の進歩の恩恵を受けることができる。
具体的には,言語間マッピングの知識の豊富なmplmを用いて,言語間理解を行う。
既存の高品質なxmrcデータセットは、xkbqaのデータ不足問題を大幅に軽減し、モデルの微調整にさらに活用することができます。
12言語における2つのxKBQAデータセットに対する大規模な実験は、我々のアプローチが様々なベースラインを上回り、強力なショット数とゼロショットのパフォーマンスを達成することを示している。
私たちのデータセットとコードは、さらなる研究のためにリリースされます。
関連論文リスト
- Few-shot In-context Learning for Knowledge Base Question Answering [31.73274700847965]
本稿では,KB-BINDERを提案する。
4つの公開ヘテロジニアスKBQAデータセットの実験結果から,KB-BINDERはコンテクスト内デモを数回しか行わず,高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-05-02T19:31:55Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - Reasoning Over Virtual Knowledge Bases With Open Predicate Relations [85.19305347984515]
Open Predicate Query Language (OPQL) を紹介します。
OPQLは、テキストから完全にトレーニングされた仮想知識ベース(VKB)を構築する方法である。
OPQLは2つの異なるKB推論タスクにおいて、以前のVKBメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-14T01:29:54Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。