論文の概要: Multilingual Non-Factoid Question Answering with Silver Answers
- arxiv url: http://arxiv.org/abs/2408.10604v1
- Date: Tue, 20 Aug 2024 07:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:54:06.874805
- Title: Multilingual Non-Factoid Question Answering with Silver Answers
- Title(参考訳): 銀回答による多言語非ファクトイド質問応答
- Authors: Ritwik Mishra, Sreeram Vennam, Rajiv Ratn Shah, Ponnurangam Kumaraguru,
- Abstract要約: この研究は、非ファクトイデアルな質問を持つ多言語QuADであるMuNfQuADを提示する。
BBCニュース記事の疑わしいサブヘッドを質問として、それに対応する段落を銀の回答として利用する。
データセットは38言語にまたがる370万以上のQAペアで構成され、いくつかの低リソース言語を含んでいる。
- 参考スコア(独自算出の注目度): 36.31301773167754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing Question Answering Datasets (QuADs) primarily focus on factoid-based short-context Question Answering (QA) in high-resource languages. However, the scope of such datasets for low-resource languages remains limited, with only a few works centered on factoid-based QuADs and none on non-factoid QuADs. Therefore, this work presents MuNfQuAD, a multilingual QuAD with non-factoid questions. It utilizes interrogative sub-headings from BBC news articles as questions and the corresponding paragraphs as silver answers. The dataset comprises over 370K QA pairs across 38 languages, encompassing several low-resource languages, and stands as the largest multilingual QA dataset to date. Based on the manual annotations of 790 QA-pairs from MuNfQuAD (golden set), we observe that 98\% of questions can be answered using their corresponding silver answer. Our fine-tuned Answer Paragraph Selection (APS) model outperforms the baselines. The APS model attained an accuracy of 80\% and 72\%, as well as a macro F1 of 72\% and 66\%, on the MuNfQuAD testset and the golden set, respectively. Furthermore, the APS model effectively generalizes certain a language within the golden set, even after being fine-tuned on silver labels.
- Abstract(参考訳): 既存のQanguage Answering Datasets (QuAD) は主にファクトイドベースの短文Qanswering (QA) に重点を置いている。
しかし、そのような低リソース言語に対するデータセットの範囲は限定的であり、ファクトイドベースのQuADと非ファクトイドのQuADを中心にした研究はほとんどない。
したがって、この研究は非ファクトイデアルな質問を持つ多言語QuADである MuNfQuAD を提示する。
BBCのニュース記事からの疑わしいサブヘッダーを質問として、それに対応する段落を銀の回答として利用する。
データセットは38言語にまたがる370万以上のQAペアで構成され、いくつかの低リソース言語を含んでいる。
MuNfQuAD (golden set) の 790 QA-pair のマニュアルアノテーションに基づいて, 98%の質問が対応する銀の回答を用いて答えられることを示した。
微調整されたAnswer Paragraph Selection(APS)モデルはベースラインよりも優れています。
APSモデルでは,MNfQuADテストセットとゴールデンセットにおいて,80\%,72\%,マクロF1が72\%,66\%の精度が得られた。
さらに、APSモデルは銀ラベルを微調整した後でも、黄金集合内の特定の言語を効果的に一般化する。
関連論文リスト
- INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - UQA: Corpus for Urdu Question Answering [3.979019316355144]
本稿では,ウルドゥー語における質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
論文 参考訳(メタデータ) (2024-05-02T16:44:31Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - AmQA: Amharic Question Answering Dataset [8.509075718695492]
質問回答 (QA) は、文脈文書が与えられた自然言語テキストから簡潔な回答や回答リストを返します。
Amharic QAデータセットは公開されていない。
われわれは2628件のウィキペディア記事をクラウドソーシングした。
論文 参考訳(メタデータ) (2023-03-06T17:06:50Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-03T18:40:25Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。