論文の概要: KazQAD: Kazakh Open-Domain Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2404.04487v1
- Date: Sat, 6 Apr 2024 03:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:58:47.941171
- Title: KazQAD: Kazakh Open-Domain Question Answering Dataset
- Title(参考訳): KazQAD: Kazakhのオープンドメイン質問がデータセットに回答
- Authors: Rustem Yeshpanov, Pavel Efimov, Leonid Boytsov, Ardak Shalkarbayuli, Pavel Braslavski,
- Abstract要約: KazQADは、カザフスタンのオープンドメイン質問応答データセットである。
これは、理解と完全なODQA設定を読むのに使うことができる。
6000件弱の独特な質問があり、短い回答が抽出されている。
- 参考スコア(独自算出の注目度): 2.8158674707210136
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce KazQAD -- a Kazakh open-domain question answering (ODQA) dataset -- that can be used in both reading comprehension and full ODQA settings, as well as for information retrieval experiments. KazQAD contains just under 6,000 unique questions with extracted short answers and nearly 12,000 passage-level relevance judgements. We use a combination of machine translation, Wikipedia search, and in-house manual annotation to ensure annotation efficiency and data quality. The questions come from two sources: translated items from the Natural Questions (NQ) dataset (only for training) and the original Kazakh Unified National Testing (UNT) exam (for development and testing). The accompanying text corpus contains more than 800,000 passages from the Kazakh Wikipedia. As a supplementary dataset, we release around 61,000 question-passage-answer triples from the NQ dataset that have been machine-translated into Kazakh. We develop baseline retrievers and readers that achieve reasonable scores in retrieval (NDCG@10 = 0.389 MRR = 0.382), reading comprehension (EM = 38.5 F1 = 54.2), and full ODQA (EM = 17.8 F1 = 28.7) settings. Nevertheless, these results are substantially lower than state-of-the-art results for English QA collections, and we think that there should still be ample room for improvement. We also show that the current OpenAI's ChatGPTv3.5 is not able to answer KazQAD test questions in the closed-book setting with acceptable quality. The dataset is freely available under the Creative Commons licence (CC BY-SA) at https://github.com/IS2AI/KazQAD.
- Abstract(参考訳): Kazakhのオープンドメイン質問応答(ODQA)データセットであるKazQADを紹介します。
KazQADには6000以上のユニークな質問が含まれており、短い回答が抽出され、12,000のパスレベルの関連判断が導かれる。
我々は、機械翻訳、ウィキペディア検索、および社内のマニュアルアノテーションを組み合わせて、アノテーションの効率とデータ品質を保証する。
質問は、Natural Questions (NQ)データセット(トレーニングのためのみ)から翻訳された項目と、オリジナルのKazakh Unified National Testing (UNT)試験(開発とテストのため)の2つのソースから来ている。
付随するテキストコーパスには、カザフ語版ウィキペディアから800,000通以上の節が含まれている。
補足データセットとして、機械でカザフ語に翻訳されたNQデータセットから、約61,000の質問パス回答トリプルをリリースします。
検索において妥当なスコア(NDCG@10 = 0.389 MRR = 0.382)、読解理解(EM = 38.5 F1 = 54.2)、全ODQA(EM = 17.8 F1 = 28.7)を実現する。
それにもかかわらず、これらの結果は、英語のQAコレクションの最先端結果よりもかなり低いので、改善の余地は十分にあると思います。
また、現在のOpenAIのChatGPTv3.5では、クローズドブック設定でKazQADテストの質問に答えることができません。
データセットはCreative Commons licence (CC BY-SA) のhttps://github.com/IS2AI/KazQADで無償公開されている。
関連論文リスト
- MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - AmQA: Amharic Question Answering Dataset [8.509075718695492]
質問回答 (QA) は、文脈文書が与えられた自然言語テキストから簡潔な回答や回答リストを返します。
Amharic QAデータセットは公開されていない。
われわれは2628件のウィキペディア記事をクラウドソーシングした。
論文 参考訳(メタデータ) (2023-03-06T17:06:50Z) - KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文 参考訳(メタデータ) (2022-05-04T23:53:23Z) - WikiOmnia: generative QA corpus on the whole Russian Wikipedia [0.2132096006921048]
Wiki Omniaデータセットは、新しい公開QAペアとそれに対応するロシアのウィキペディア記事要約セクションである。
データセットには、ロシア語に関するウィキペディアの記事がすべて含まれている。
結果として得られたデータセットには、ロシアのウィキペディア全体の生データ(7,930,873 QA対、ruGPT-3 XL段落7,991,040 QA対、ruT5-large段落7,991,040 QA対)と厳格な自動検証データが含まれる。
論文 参考訳(メタデータ) (2022-04-17T12:59:36Z) - JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-03T18:40:25Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。