論文の概要: Building a Rich Dataset to Empower the Persian Question Answering Systems
- arxiv url: http://arxiv.org/abs/2412.20212v1
- Date: Sat, 28 Dec 2024 16:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:31.852106
- Title: Building a Rich Dataset to Empower the Persian Question Answering Systems
- Title(参考訳): ペルシアの質問応答システムを活用したリッチデータセットの構築
- Authors: Mohsen Yazdinejad, Marjan Kaedi,
- Abstract要約: このデータセットはNextQuADと呼ばれ、23,918の質問と回答を含む7,515のコンテキストを持つ。
2つの事前学習言語モデルを用いて,BERTに基づく質問応答モデルをこのデータセットに適用した。
開発セットの評価では、0.95 Exact Match (EM)と0.97 Fl_scoreを示している。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License:
- Abstract: Question answering systems provide short, precise, and specific answers to questions. So far, many robust question answering systems have been developed for English, while some languages with fewer resources, like Persian, have few numbers of standard dataset. In this study, a comprehensive open-domain dataset is presented for Persian. This dataset is called NextQuAD and has 7,515 contexts, including 23,918 questions and answers. Then, a BERT-based question answering model has been applied to this dataset using two pre-trained language models, including ParsBERT and XLM-RoBERTa. The results of these two models have been ensembled using mean logits. Evaluation on the development set shows 0.95 Exact Match (EM) and 0.97 Fl_score. Also, to compare the NextQuAD with other Persian datasets, our trained model on the NextQuAD, is evaluated on two other datasets named PersianQA and ParSQuAD. Comparisons show that the proposed model increased EM by 0.39 and 0.14 respectively in PersianQA and ParSQuAD-manual, while a slight EM decline of 0.007 happened in ParSQuAD-automatic.
- Abstract(参考訳): 質問応答システムは、質問に対して短く、正確で、特定の回答を提供する。
これまでのところ、多くの堅牢な質問応答システムは英語で開発されているが、ペルシア語のようなリソースが少ない言語では標準データセットの数が少ない。
本研究では,ペルシャ語を対象とした包括的オープンドメインデータセットを提案する。
このデータセットはNextQuADと呼ばれ、23,918の質問と回答を含む7,515のコンテキストを持つ。
次に,ParsBERTとXLM-RoBERTaの2つの事前学習言語モデルを用いて,BERTに基づく質問応答モデルを適用した。
これら2つのモデルの結果は平均ロジットを用いてアンサンブルされている。
開発セットの評価では、0.95 Exact Match (EM)と0.97 Fl_scoreを示している。
また、NextQuADと他のペルシアのデータセットを比較するために、NextQuADのトレーニングされたモデルは、他の2つのデータセットであるペルシャのQAとParSQuADで評価されます。
比較の結果,ペルシャQAとParSQuADはそれぞれ0.39,ParSQuADは0.14,ParSQuADは0.007,ParSQuADは0.007であった。
関連論文リスト
- Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - UQA: Corpus for Urdu Question Answering [3.979019316355144]
本稿では,ウルドゥー語における質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
論文 参考訳(メタデータ) (2024-05-02T16:44:31Z) - Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian [0.0]
我々は、SQuAD-srという名前の87K以上のサンプルからなるセルビア最大のQAデータセットを作成します。
セルビア語でスクリプトの双対性を認めるために、我々はデータセットのキリル文字版とラテン文字版の両方を生成した。
最高の結果は、私たちのラテンSQuAD-srデータセット上でBERTi'cモデルを微調整し、73.91%のExact Matchと82.97%のF1スコアを得たことである。
論文 参考訳(メタデータ) (2024-04-12T17:27:54Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - PQuAD: A Persian Question Answering Dataset [0.0]
ペルシア語ウィキペディアの記事のクラウドソース読解データセット。
80,000の質問と回答があり、25%の質問は反対に答えられない。
最先端の事前学習言語モデルに対する実験では,74.8%のエクサクトマッチ (EM) と87.6%のF1スコアが得られた。
論文 参考訳(メタデータ) (2022-02-13T05:42:55Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - FQuAD2.0: French Question Answering and knowing that you know nothing [0.25782420501870296]
我々は FQuAD2.0 を導入し, FQuAD を 17,000 以上の質問で拡張する。
このデータセットは、解答不可能な質問と解答不能な質問を区別する機能を備えた、フレンチ質問回答モデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-27T17:30:46Z) - PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge
Graph [0.0]
本稿では,ペルシャ語質問応答のためのデータセットである textitPeCoQ を紹介する。
このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。
データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。
論文 参考訳(メタデータ) (2021-06-27T08:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。