論文の概要: GermanQuAD and GermanDPR: Improving Non-English Question Answering and
Passage Retrieval
- arxiv url: http://arxiv.org/abs/2104.12741v1
- Date: Mon, 26 Apr 2021 17:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 17:13:19.651592
- Title: GermanQuAD and GermanDPR: Improving Non-English Question Answering and
Passage Retrieval
- Title(参考訳): GermanQuAD と GermanDPR:非英語質問応答の改善とパス検索
- Authors: Timo M\"oller and Julian Risch and Malte Pietsch
- Abstract要約: 我々は13,722組の抽出質問/回答ペアのデータセットである GermanQuAD を提示する。
GermanQuADで訓練された抽出QAモデルは、多言語モデルを大幅に上回る。
- 参考スコア(独自算出の注目度): 2.5621280373733604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge of research on non-English machine reading for question
answering (QA) is the lack of annotated datasets. In this paper, we present
GermanQuAD, a dataset of 13,722 extractive question/answer pairs. To improve
the reproducibility of the dataset creation approach and foster QA research on
other languages, we summarize lessons learned and evaluate reformulation of
question/answer pairs as a way to speed up the annotation process. An
extractive QA model trained on GermanQuAD significantly outperforms
multilingual models and also shows that machine-translated training data cannot
fully substitute hand-annotated training data in the target language. Finally,
we demonstrate the wide range of applications of GermanQuAD by adapting it to
GermanDPR, a training dataset for dense passage retrieval (DPR), and train and
evaluate the first non-English DPR model.
- Abstract(参考訳): 質問応答のための非英語機械読解の研究における大きな課題は、注釈付きデータセットの欠如である。
本稿では,13,722組の抽出質問/回答ペアのデータセットである GermanQuAD を提案する。
データセット作成手法の再現性の向上と他言語でのQA研究の促進を目的として,アノテーションプロセスの高速化を目的とした質問/回答ペアの改訂について,学習と評価を行った。
GermanQuADでトレーニングされた抽出QAモデルは、多言語モデルよりも大幅に優れており、機械翻訳されたトレーニングデータは、対象言語で手書きのトレーニングデータを完全に置き換えることができないことを示す。
最後に,dpr (dung passage retrieval) のためのトレーニングデータセットである germandpr に適用し,最初の非英語dprモデルを訓練し,評価することで, germanquad の幅広い応用を実証する。
関連論文リスト
- FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages [0.0]
本稿では,幼児の物語理解能力の評価と向上を目的とした,有名なQAデータセットであるFairytaleQAの機械翻訳版を紹介する。
我々は、翻訳データセット内の質問生成(QG)タスクとQAタスクのベンチマークを確立するために、微調整された、控えめなスケールのモデルを採用している。
本稿では,質問応答対の生成モデルを提案し,質問適合性,回答可能性,妥当性,子どもの適合性などの品質指標を取り入れた評価を行った。
論文 参考訳(メタデータ) (2024-06-06T16:31:47Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文 参考訳(メタデータ) (2022-05-30T10:31:08Z) - Towards More Equitable Question Answering Systems: How Much More Data Do
You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。
具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。
我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文 参考訳(メタデータ) (2021-05-28T21:32:04Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。