論文の概要: PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale
- arxiv url: http://arxiv.org/abs/2304.12206v2
- Date: Tue, 17 Oct 2023 15:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 22:10:51.858354
- Title: PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale
- Title(参考訳): PAXQA: トレーニング尺度における言語横断質問応答例の生成
- Authors: Bryan Li and Chris Callison-Burch
- Abstract要約: PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 53.92008514395125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing question answering (QA) systems owe much of their success to large,
high-quality training data. Such annotation efforts are costly, and the
difficulty compounds in the cross-lingual setting. Therefore, prior
cross-lingual QA work has focused on releasing evaluation datasets, and then
applying zero-shot methods as baselines. This work proposes a synthetic data
generation method for cross-lingual QA which leverages indirect supervision
from existing parallel corpora. Our method termed PAXQA (Projecting annotations
for cross-lingual (x) QA) decomposes cross-lingual QA into two stages. First,
we apply a question generation (QG) model to the English side. Second, we apply
annotation projection to translate both the questions and answers. To better
translate questions, we propose a novel use of lexically-constrained machine
translation, in which constrained entities are extracted from the parallel
bitexts.
We apply PAXQA to generate cross-lingual QA examples in 4 languages (662K
examples total), and perform human evaluation on a subset to create validation
and test splits. We then show that models fine-tuned on these datasets
outperform prior synthetic data generation models over several extractive QA
datasets. The largest performance gains are for directions with non-English
questions and English contexts. Ablation studies show that our dataset
generation method is relatively robust to noise from automatic word alignments,
showing the sufficient quality of our generations. To facilitate follow-up
work, we release our code and datasets at https://github.com/manestay/paxqa .
- Abstract(参考訳): 既存の質問応答(QA)システムは、その成功の大部分を、大規模で高品質なトレーニングデータに負っている。
このようなアノテーションの取り組みは費用がかかり、言語横断設定の難易度が高まる。
そのため、従来の言語間QA作業では、評価データセットをリリースし、ゼロショットメソッドをベースラインとして適用することに重点を置いている。
本研究では,既存の並列コーパスからの間接的監視を利用する言語間QAのための合成データ生成手法を提案する。
本手法はPAXQA (Projecting annotations for cross-lingual (x) QA) を2段階に分解する。
まず,質問生成モデル(qg)を英語側に適用する。
第二に、質問と回答の両方を翻訳するためにアノテーションプロジェクションを適用する。
質問をよりよく翻訳するために、並列ビットから制約されたエンティティを抽出する語彙制約付き機械翻訳の新規な利用を提案する。
PAXQAを用いて4言語で言語間QAを生成(合計662K)し、サブセット上で人間による評価を行い、検証とテスト分割を生成する。
次に、これらのデータセットに基づいて微調整されたモデルが、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
最大のパフォーマンス向上は、非英語の質問と英語の文脈による指示である。
アブレーション研究により, 単語アライメントによる雑音に対して比較的頑健なデータセット生成手法が得られた。
フォローアップ作業を容易にするために、コードとデータセットをhttps://github.com/manestay/paxqaでリリースします。
関連論文リスト
- Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。
提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-04T07:29:35Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。