Fugu-MT 論文翻訳(概要): PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale

論文の概要: PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale

arxiv url: http://arxiv.org/abs/2304.12206v2
Date: Tue, 17 Oct 2023 15:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 22:10:51.858354
Title: PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale
Title（参考訳）: PAXQA: トレーニング尺度における言語横断質問応答例の生成
Authors: Bryan Li and Chris Callison-Burch
Abstract要約: PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
参考スコア（独自算出の注目度）: 53.92008514395125
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing question answering (QA) systems owe much of their success to large, high-quality training data. Such annotation efforts are costly, and the difficulty compounds in the cross-lingual setting. Therefore, prior cross-lingual QA work has focused on releasing evaluation datasets, and then applying zero-shot methods as baselines. This work proposes a synthetic data generation method for cross-lingual QA which leverages indirect supervision from existing parallel corpora. Our method termed PAXQA (Projecting annotations for cross-lingual (x) QA) decomposes cross-lingual QA into two stages. First, we apply a question generation (QG) model to the English side. Second, we apply annotation projection to translate both the questions and answers. To better translate questions, we propose a novel use of lexically-constrained machine translation, in which constrained entities are extracted from the parallel bitexts. We apply PAXQA to generate cross-lingual QA examples in 4 languages (662K examples total), and perform human evaluation on a subset to create validation and test splits. We then show that models fine-tuned on these datasets outperform prior synthetic data generation models over several extractive QA datasets. The largest performance gains are for directions with non-English questions and English contexts. Ablation studies show that our dataset generation method is relatively robust to noise from automatic word alignments, showing the sufficient quality of our generations. To facilitate follow-up work, we release our code and datasets at https://github.com/manestay/paxqa .
Abstract（参考訳）: 既存の質問応答(QA)システムは、その成功の大部分を、大規模で高品質なトレーニングデータに負っている。このようなアノテーションの取り組みは費用がかかり、言語横断設定の難易度が高まる。そのため、従来の言語間QA作業では、評価データセットをリリースし、ゼロショットメソッドをベースラインとして適用することに重点を置いている。本研究では,既存の並列コーパスからの間接的監視を利用する言語間QAのための合成データ生成手法を提案する。本手法はPAXQA (Projecting annotations for cross-lingual (x) QA) を2段階に分解する。まず,質問生成モデル(qg)を英語側に適用する。第二に、質問と回答の両方を翻訳するためにアノテーションプロジェクションを適用する。質問をよりよく翻訳するために、並列ビットから制約されたエンティティを抽出する語彙制約付き機械翻訳の新規な利用を提案する。 PAXQAを用いて4言語で言語間QAを生成(合計662K)し、サブセット上で人間による評価を行い、検証とテスト分割を生成する。次に、これらのデータセットに基づいて微調整されたモデルが、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。最大のパフォーマンス向上は、非英語の質問と英語の文脈による指示である。アブレーション研究により, 単語アライメントによる雑音に対して比較的頑健なデータセット生成手法が得られた。フォローアップ作業を容易にするために、コードとデータセットをhttps://github.com/manestay/paxqaでリリースします。

関連論文リスト

Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文参考訳（メタデータ） (2024-10-04T07:29:35Z)
A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。回答可能な質問に対して、Antonymとエンティティスワップを実行します。従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文参考訳（メタデータ） (2023-10-30T10:14:52Z)
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。 QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文参考訳（メタデータ） (2023-09-19T05:20:36Z)
QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文参考訳（メタデータ） (2022-11-15T16:14:39Z)
Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文参考訳（メタデータ） (2022-10-08T10:24:39Z)
MuCoT: Multilingual Contrastive Training for Question-Answering in Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。 Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文参考訳（メタデータ） (2022-04-12T13:52:54Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。 MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文参考訳（メタデータ） (2020-10-23T20:09:01Z)
Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2020-04-24T17:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。