論文の概要: PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale
- arxiv url: http://arxiv.org/abs/2304.12206v1
- Date: Mon, 24 Apr 2023 15:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:15:25.384466
- Title: PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale
- Title(参考訳): PAXQA: トレーニング尺度における言語横断質問応答例の生成
- Authors: Bryan Li and Chris Callison-Burch
- Abstract要約: 4つの言語にまたがる言語間QAデータセットをリリースし、合計662万QAのサンプルを作成しました。
最大のパフォーマンス向上は、非英語の質問や英語のコンテキストを交互に行うことにある。
- 参考スコア(独自算出の注目度): 26.451910349207072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing question answering (QA) systems owe much of their success to large,
high-quality training data. Such annotation efforts are costly, and the
difficulty compounds in the cross-lingual setting. Therefore, prior
cross-lingual QA work has focused on releasing evaluation datasets, and then
applying zero-shot methods as baselines. In this work, we propose a synthetic
data generation method for cross-lingual QA which leverages indirect
supervision from existing parallel corpora. Our method termed PAXQA
({P}rojecting {a}nnotations for cross-lingual ({x}) QA) decomposes
cross-lingual QA into two stages. In the first stage, we apply a question
generation (QG) model to the English side. In the second stage, we apply
annotation projection to translate both the questions and answers. To better
translate questions, we propose a novel use of lexically-constrained machine
translation, in which constrained entities are extracted from the parallel
bitexts. We release cross-lingual QA datasets across 4 languages, totaling 662K
QA examples. We then show that extractive QA models fine-tuned on these
datasets outperform both zero-shot and prior synthetic data generation models,
showing the sufficient quality of our generations. We find that the largest
performance gains are for cross-lingual directions with non-English questions
and English contexts. Ablation studies show that our dataset generation method
is relatively robust to noise from automatic word alignments.
- Abstract(参考訳): 既存の質問応答(QA)システムは、その成功の大部分を、大規模で高品質なトレーニングデータに負っている。
このようなアノテーションの取り組みは費用がかかり、言語横断設定の難易度が高まる。
そのため、従来の言語間QA作業では、評価データセットをリリースし、ゼロショットメソッドをベースラインとして適用することに重点を置いている。
本研究では,既存の並列コーパスからの間接的監視を利用する言語間QAのための合成データ生成手法を提案する。
本手法はPAXQA ({P}rojecting {a}nnotations for cross-lingual ({x}) QA) を2段階に分解する。
第一段階では、質問生成モデル(QG)を英語側に適用する。
第2段階では、疑問と答えの両方を翻訳するためにアノテーションプロジェクションを適用する。
質問をよりよく翻訳するために、並列ビットから制約されたエンティティを抽出する語彙制約付き機械翻訳の新規な利用を提案する。
4つの言語にわたる言語間QAデータセットをリリースしました。
次に、これらのデータセットに基づいて微調整された抽出QAモデルが、ゼロショットおよび以前の合成データ生成モデルより優れていることを示す。
最大のパフォーマンス向上は、非英語の質問や英語のコンテキストを交互に行うことにある。
アブレーション研究では,自動単語アライメントによる雑音に対して,データセット生成法が比較的頑健であることが示されている。
関連論文リスト
- Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。
提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-04T07:29:35Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。