論文の概要: Building Efficient and Effective OpenQA Systems for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2401.03590v2
- Date: Wed, 5 Jun 2024 03:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:45:21.295982
- Title: Building Efficient and Effective OpenQA Systems for Low-Resource Languages
- Title(参考訳): 低リソース言語のための効率的かつ効果的なOpenQAシステムの構築
- Authors: Emrah Budur, Rıza Özçelik, Dilara Soylu, Omar Khattab, Tunga Güngör, Christopher Potts,
- Abstract要約: 低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は、機械翻訳されたラベル付きデータセットと関連する非構造化知識ソースを用いた、弱い監視である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案する。
- 参考スコア(独自算出の注目度): 17.64851283209797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Question answering (QA) is the task of answering questions posed in natural language with free-form natural language answers extracted from a given passage. In the OpenQA variant, only a question text is given, and the system must retrieve relevant passages from an unstructured knowledge source and use them to provide answers, which is the case in the mainstream QA systems on the Web. QA systems currently are mostly limited to the English language due to the lack of large-scale labeled QA datasets in non-English languages. In this paper, we show that effective, low-cost OpenQA systems can be developed for low-resource contexts. The key ingredients are (1) weak supervision using machine-translated labeled datasets and (2) a relevant unstructured knowledge source in the target language context. Furthermore, we show that only a few hundred gold assessment examples are needed to reliably evaluate these systems. We apply our method to Turkish as a challenging case study, since English and Turkish are typologically very distinct and Turkish has limited resources for QA. We present SQuAD-TR, a machine translation of SQuAD2.0, and we build our OpenQA system by adapting ColBERT-QA and retraining it over Turkish resources and SQuAD-TR using two versions of Wikipedia dumps spanning two years. We obtain a performance improvement of 24-32% in the Exact Match (EM) score and 22-29% in the F1 score compared to the BM25-based and DPR-based baseline QA reader models. Our results show that SQuAD-TR makes OpenQA feasible for Turkish, which we hope encourages researchers to build OpenQA systems in other low-resource languages. We make all the code, models, and the dataset publicly available at https://github.com/boun-tabi/SQuAD-TR.
- Abstract(参考訳): 質問応答(QA)とは、ある節から抽出された自由形式の自然言語による自然言語による質問に答えるタスクである。
OpenQAの変種では、質問文のみが与えられ、システムは構造化されていない知識ソースから関連するパスを検索し、それを使って回答を提供する必要がある。
QAシステムは現在、英語以外の言語に大規模なラベル付きQAデータセットがないため、英語に限られている。
本稿では,低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は,(1) 機械翻訳ラベル付きデータセットを用いた弱監督,(2) 対象言語文脈における非構造的知識源である。
さらに,これらのシステムを確実に評価するためには,数百のゴールドアセスメント例が不可欠であることを示す。
英語とトルコ語は類型的に非常に異なっており、トルコ語にはQAのためのリソースが限られているため、我々の手法をトルコ語に適用することは難しいケーススタディである。
我々は、SQuAD2.0の機械翻訳であるSQuAD-TRを紹介し、ColBERT-QAを適応させ、トルコのリソースとSQuAD-TRを2年間にわたるウィキペディアダンプの2バージョンを用いて再トレーニングすることで、OpenQAシステムを構築します。
BM25ベースおよびDPRベースラインQAリーダモデルと比較して,エクサクトマッチ(EM)スコアで24~32%,F1スコアで22~29%の性能向上が得られた。
以上の結果から,SQuAD-TRにより,トルコ語でOpenQAが実現可能となり,研究者が他の低リソース言語でOpenQAシステムを構築することが期待できる。
すべてのコード、モデル、データセットをhttps://github.com/boun-tabi/SQuAD-TRで公開しています。
関連論文リスト
- UQA: Corpus for Urdu Question Answering [3.979019316355144]
本稿では,ウルドゥー語における質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
論文 参考訳(メタデータ) (2024-05-02T16:44:31Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - EuSQuAD: Automatically Translated and Aligned SQuAD2.0 for Basque [0.4499833362998487]
この作業は、SQuAD2.0をバスク語に自動翻訳・調整する最初のイニシアチブであるEuSQuADを提示する。
我々は、EuSQuADをトレーニングデータとしてサポートした広範囲な定性分析とQA実験により、EuSQuADの価値を実証する。
論文 参考訳(メタデータ) (2024-04-18T13:31:57Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - XLMRQA: Open-Domain Question Answering on Vietnamese Wikipedia-based
Textual Knowledge Source [2.348805691644086]
本稿では,ウィキペディアベースのテキスト知識ソースに教師付きトランスフォーマーを用いたベトナム初のQAシステムであるXLMRQAを提案する。
3つのシステムで得られた結果から,質問タイプがQAシステムの性能に与える影響を解析した。
論文 参考訳(メタデータ) (2022-04-14T14:54:33Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study [0.5801044612920815]
4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文 参考訳(メタデータ) (2021-11-10T12:33:18Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - Retrieving and Reading: A Comprehensive Survey on Open-domain Question
Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。
Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。
次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文 参考訳(メタデータ) (2021-01-04T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。