論文の概要: Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2302.13241v1
- Date: Sun, 26 Feb 2023 05:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:13:48.606405
- Title: Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension
- Title(参考訳): 読解における知識ベースを問う言語間質問
- Authors: Chen Zhang, Yuxuan Lai, Yansong Feng, Xingyu Shen, Haowei Du, Dongyan
Zhao
- Abstract要約: 知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 61.079852289005025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although many large-scale knowledge bases (KBs) claim to contain multilingual
information, their support for many non-English languages is often incomplete.
This incompleteness gives birth to the task of cross-lingual question answering
over knowledge base (xKBQA), which aims to answer questions in languages
different from that of the provided KB. One of the major challenges facing
xKBQA is the high cost of data annotation, leading to limited resources
available for further exploration. Another challenge is mapping KB schemas and
natural language expressions in the questions under cross-lingual settings. In
this paper, we propose a novel approach for xKBQA in a reading comprehension
paradigm. We convert KB subgraphs into passages to narrow the gap between KB
schemas and questions, which enables our model to benefit from recent advances
in multilingual pre-trained language models (MPLMs) and cross-lingual machine
reading comprehension (xMRC). Specifically, we use MPLMs, with considerable
knowledge of cross-lingual mappings, for cross-lingual reading comprehension.
Existing high-quality xMRC datasets can be further utilized to finetune our
model, greatly alleviating the data scarcity issue in xKBQA. Extensive
experiments on two xKBQA datasets in 12 languages show that our approach
outperforms various baselines and achieves strong few-shot and zero-shot
performance. Our dataset and code are released for further research.
- Abstract(参考訳): 多くの大規模知識ベース(kbs)は多言語情報を含むと主張しているが、多くの非英語言語への支持はしばしば不完全である。
この不完全性は、提供されたKBとは異なる言語での質問に答えることを目的とした知識ベース(xKBQA)に対する言語間質問応答のタスクを生み出す。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことであり、さらなる調査のために限られたリソースが利用できるようになる。
もうひとつの課題は、KBスキーマと自然言語表現を、言語間設定で質問にマッピングすることだ。
本稿では,読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
KBサブグラフをパスに変換し,KBスキーマと問合せのギャップを狭めることにより,多言語事前学習言語モデル (MPLM) と言語間機械読解システム (xMRC) の最近の進歩の恩恵を受けることができる。
具体的には,言語間マッピングの知識の豊富なmplmを用いて,言語間理解を行う。
既存の高品質なxmrcデータセットは、xkbqaのデータ不足問題を大幅に軽減し、モデルの微調整にさらに活用することができます。
12言語における2つのxKBQAデータセットに対する大規模な実験は、我々のアプローチが様々なベースラインを上回り、強力なショット数とゼロショットのパフォーマンスを達成することを示している。
私たちのデータセットとコードは、さらなる研究のためにリリースされます。
関連論文リスト
- INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。
現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。
CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文 参考訳(メタデータ) (2024-06-06T16:14:54Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Few-shot In-context Learning for Knowledge Base Question Answering [31.73274700847965]
本稿では,KB-BINDERを提案する。
4つの公開ヘテロジニアスKBQAデータセットの実験結果から,KB-BINDERはコンテクスト内デモを数回しか行わず,高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-05-02T19:31:55Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Reasoning Over Virtual Knowledge Bases With Open Predicate Relations [85.19305347984515]
Open Predicate Query Language (OPQL) を紹介します。
OPQLは、テキストから完全にトレーニングされた仮想知識ベース(VKB)を構築する方法である。
OPQLは2つの異なるKB推論タスクにおいて、以前のVKBメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-14T01:29:54Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。