論文の概要: QAmeleon: Multilingual QA with Only 5 Examples
- arxiv url: http://arxiv.org/abs/2211.08264v1
- Date: Tue, 15 Nov 2022 16:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:34:39.299344
- Title: QAmeleon: Multilingual QA with Only 5 Examples
- Title(参考訳): QAmeleon: たった5つの例による多言語QA
- Authors: Priyanka Agrawal, Chris Alberti, Fantine Huot, Joshua Maynez, Ji Ma,
Sebastian Ruder, Kuzman Ganchev, Dipanjan Das, Mirella Lapata
- Abstract要約: 数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
- 参考スコア(独自算出の注目度): 71.80611036543633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of large, high-quality datasets has been one of the main
drivers of recent progress in question answering (QA). Such annotated datasets
however are difficult and costly to collect, and rarely exist in languages
other than English, rendering QA technology inaccessible to underrepresented
languages. An alternative to building large monolingual training datasets is to
leverage pre-trained language models (PLMs) under a few-shot learning setting.
Our approach, QAmeleon, uses a PLM to automatically generate multilingual data
upon which QA models are trained, thus avoiding costly annotation. Prompt
tuning the PLM for data synthesis with only five examples per language delivers
accuracy superior to translation-based baselines, bridges nearly 60% of the gap
between an English-only baseline and a fully supervised upper bound trained on
almost 50,000 hand labeled examples, and always leads to substantial
improvements compared to fine-tuning a QA model directly on labeled examples in
low resource settings. Experiments on the TyDiQA-GoldP and MLQA benchmarks show
that few-shot prompt tuning for data synthesis scales across languages and is a
viable alternative to large-scale annotation.
- Abstract(参考訳): 大規模で高品質なデータセットの可用性は、質問応答(QA)の最近の進歩の主要な要因のひとつだ。
しかし、このような注釈付きデータセットは収集が困難でコストがかかり、英語以外の言語にはほとんど存在しない。
大きなモノリンガルトレーニングデータセット構築の代替として、数ショットの学習環境下で事前訓練された言語モデル(PLM)を活用する方法がある。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルがトレーニングされたマルチ言語データを自動的に生成する。
翻訳ベースのベースラインよりも精度が向上し、英語のみのベースラインと、約50,000のラベル付きサンプルでトレーニングされた上界とのギャップの60%近くを橋渡しし、リソース設定でラベル付きサンプルに直接qaモデルを微調整するよりも、常に大幅に改善される。
TyDiQA-GoldPとMLQAベンチマークの実験では、言語間でのデータ合成スケールのプロンプトチューニングがほとんどなく、大規模なアノテーションの代替となることが示されている。
関連論文リスト
- PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Towards More Equitable Question Answering Systems: How Much More Data Do
You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。
具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。
我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文 参考訳(メタデータ) (2021-05-28T21:32:04Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。