論文の概要: Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study
- arxiv url: http://arxiv.org/abs/2111.05671v1
- Date: Wed, 10 Nov 2021 12:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 17:59:33.931204
- Title: Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study
- Title(参考訳): アラビア語質問応答に対する事前学習型トランスフォーマーアプローチ : 比較検討
- Authors: Kholoud Alsubhi, Amani Jamal, Areej Alhothali
- Abstract要約: 4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
- 参考スコア(独自算出の注目度): 0.5801044612920815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering(QA) is one of the most challenging yet widely investigated
problems in Natural Language Processing (NLP). Question-answering (QA) systems
try to produce answers for given questions. These answers can be generated from
unstructured or structured text. Hence, QA is considered an important research
area that can be used in evaluating text understanding systems. A large volume
of QA studies was devoted to the English language, investigating the most
advanced techniques and achieving state-of-the-art results. However, research
efforts in the Arabic question-answering progress at a considerably slower pace
due to the scarcity of research efforts in Arabic QA and the lack of large
benchmark datasets. Recently many pre-trained language models provided high
performance in many Arabic NLP problems. In this work, we evaluate the
state-of-the-art pre-trained transformers models for Arabic QA using four
reading comprehension datasets which are Arabic-SQuAD, ARCD, AQAD, and
TyDiQA-GoldP datasets. We fine-tuned and compared the performance of the
AraBERTv2-base model, AraBERTv0.2-large model, and AraELECTRA model. In the
last, we provide an analysis to understand and interpret the low-performance
results obtained by some models.
- Abstract(参考訳): 質問応答(QA)は自然言語処理(NLP)において最も困難だが広く研究されている問題の1つである。
質問回答(QA)システムは、与えられた質問に対する回答を作成しようとする。
これらの回答は、構造化されていないテキストや構造化されたテキストから生成できる。
したがって、QAはテキスト理解システムの評価に利用できる重要な研究領域であると考えられる。
大量のQA研究が英語に注がれ、最も高度な技術を調査し、最先端の成果を得た。
しかし、アラビア語のQAにおける研究努力の不足と大規模なベンチマークデータセットの欠如により、アラビア語の質問応答の進行がかなり遅い。
近年、多くの事前訓練された言語モデルがアラビア語のNLP問題に高い性能をもたらした。
本研究では、アラビア語-SQuAD、ARCD、AQAD、TyDiQA-GoldPの4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変換モデルを評価する。
AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整して比較した。
最後に、いくつかのモデルで得られた低性能な結果を理解し、解釈するための分析を行う。
関連論文リスト
- FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages [0.0]
本稿では,幼児の物語理解能力の評価と向上を目的とした,有名なQAデータセットであるFairytaleQAの機械翻訳版を紹介する。
我々は、翻訳データセット内の質問生成(QG)タスクとQAタスクのベンチマークを確立するために、微調整された、控えめなスケールのモデルを採用している。
本稿では,質問応答対の生成モデルを提案し,質問適合性,回答可能性,妥当性,子どもの適合性などの品質指標を取り入れた評価を行った。
論文 参考訳(メタデータ) (2024-06-06T16:31:47Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Building Efficient and Effective OpenQA Systems for Low-Resource Languages [17.64851283209797]
低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は、機械翻訳されたラベル付きデータセットと関連する非構造化知識ソースを用いた、弱い監視である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案する。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - AQUALLM: Audio Question Answering Data Generation Using Large Language
Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文 参考訳(メタデータ) (2023-12-28T20:01:27Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - AraBERT: Transformer-based Model for Arabic Language Understanding [0.0]
我々は、BERTが英語で行ったのと同じ成功を達成するために、特にアラビア語のためにBERTを事前訓練した。
その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-02-28T22:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。