論文の概要: BanglaQuAD: A Bengali Open-domain Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2410.10229v1
- Date: Mon, 14 Oct 2024 07:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:14:55.185357
- Title: BanglaQuAD: A Bengali Open-domain Question Answering Dataset
- Title(参考訳): BanglaQuAD - ベンガルのオープンドメインの質問回答データセット
- Authors: Md Rashad Al Hasan Rony, Sudipto Kumar Shaha, Rakib Al Hasan, Sumon Kanti Dey, Amzad Hossain Rafi, Amzad Hossain Rafi, Ashraf Hasan Sirajee, Jens Lehmann,
- Abstract要約: ベンガル語は地球上で7番目に話される言語であるが、自然言語処理(NLP)の分野では低リソース言語と考えられている。
本稿では,ベンガル語ウィキペディアの記事から構築した30,808組の質問応答ペアを母語話者によって構成したベンガル語質問応答データセットであるBanglaQuADを紹介する。
- 参考スコア(独自算出の注目度): 6.228978072962629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bengali is the seventh most spoken language on earth, yet considered a low-resource language in the field of natural language processing (NLP). Question answering over unstructured text is a challenging NLP task as it requires understanding both question and passage. Very few researchers attempted to perform question answering over Bengali (natively pronounced as Bangla) text. Typically, existing approaches construct the dataset by directly translating them from English to Bengali, which produces noisy and improper sentence structures. Furthermore, they lack topics and terminologies related to the Bengali language and people. This paper introduces BanglaQuAD, a Bengali question answering dataset, containing 30,808 question-answer pairs constructed from Bengali Wikipedia articles by native speakers. Additionally, we propose an annotation tool that facilitates question-answering dataset construction on a local machine. A qualitative analysis demonstrates the quality of our proposed dataset.
- Abstract(参考訳): ベンガル語は地球上で7番目に話される言語であるが、自然言語処理(NLP)の分野では低リソース言語と考えられている。
非構造化テキストに対する質問応答は、問合せと問合せの両方を理解する必要があるため、難解なNLPタスクである。
ベンガル語(ネイティブに「バングラ」と発音される)のテキストに対する質問応答を試みようとする研究者はほとんどいなかった。
通常、既存のアプローチは、それらを直接英語からベンガル語に翻訳することでデータセットを構築し、ノイズや不適切な文構造を生成する。
さらに、ベンガル語や人々に関する話題や用語も欠落している。
本稿では,ベンガル語ウィキペディアの記事から構築した30,808組の質問応答ペアを母語話者によって構成したベンガル語質問応答データセットであるBanglaQuADを紹介する。
さらに,ローカルマシン上での質問応答データセット構築を容易にするアノテーションツールを提案する。
定性的分析は,提案したデータセットの品質を示す。
関連論文リスト
- CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - BEnQA: A Question Answering and Reasoning Benchmark for Bengali and English [18.217122567176585]
バングラデシュの中・高校生を対象に,ベンガル語と英語の同時試験質問からなるデータセットBEnQAを紹介した。
我々のデータセットは, 事実, 応用, 推論に基づく質問など, さまざまなタイプの質問を科学の複数の被験者にカバーする約5Kの質問で構成されている。
並列データセットを用いて複数のLarge Language Model (LLM) をベンチマークし、ベンガル語と英語のモデルの顕著な性能格差を観察する。
論文 参考訳(メタデータ) (2024-03-16T11:27:42Z) - BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal
Reference Annotations [0.0]
我々は、4つの異なるドメインから収集されたBengaliテキストのコア参照アノテーションを含む新しいデータセットBenCorefを紹介した。
この比較的小さなデータセットには、48,569トークン内に502の参照クラスタを形成する5200の参照アノテーションが含まれている。
論文 参考訳(メタデータ) (2023-04-07T15:08:46Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Simple or Complex? Learning to Predict Readability of Bengali Texts [6.860272388539321]
ベンガル語で書かれたテキストを解析できる可読性解析ツールを提案する。
2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。
論文 参考訳(メタデータ) (2020-12-09T01:41:35Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation [6.2418269277908065]
ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
我々はBengali用にカスタマイズされた文セグメンタを構築し、低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグメンタと2つの手法を組み合わせることで、275万文対からなる高品質なベンガル英語並列コーパスをコンパイルする。
論文 参考訳(メタデータ) (2020-09-20T06:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。