論文の概要: QAmeleon: Multilingual QA with Only 5 Examples
- arxiv url: http://arxiv.org/abs/2211.08264v2
- Date: Mon, 7 Aug 2023 11:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 00:39:43.793886
- Title: QAmeleon: Multilingual QA with Only 5 Examples
- Title(参考訳): QAmeleon: たった5つの例による多言語QA
- Authors: Priyanka Agrawal, Chris Alberti, Fantine Huot, Joshua Maynez, Ji Ma,
Sebastian Ruder, Kuzman Ganchev, Dipanjan Das, Mirella Lapata
- Abstract要約: 数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
- 参考スコア(独自算出の注目度): 71.80611036543633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of large, high-quality datasets has been one of the main
drivers of recent progress in question answering (QA). Such annotated datasets
however are difficult and costly to collect, and rarely exist in languages
other than English, rendering QA technology inaccessible to underrepresented
languages. An alternative to building large monolingual training datasets is to
leverage pre-trained language models (PLMs) under a few-shot learning setting.
Our approach, QAmeleon, uses a PLM to automatically generate multilingual data
upon which QA models are trained, thus avoiding costly annotation. Prompt
tuning the PLM for data synthesis with only five examples per language delivers
accuracy superior to translation-based baselines, bridges nearly 60% of the gap
between an English-only baseline and a fully supervised upper bound trained on
almost 50,000 hand labeled examples, and always leads to substantial
improvements compared to fine-tuning a QA model directly on labeled examples in
low resource settings. Experiments on the TyDiQA-GoldP and MLQA benchmarks show
that few-shot prompt tuning for data synthesis scales across languages and is a
viable alternative to large-scale annotation.
- Abstract(参考訳): 大規模で高品質なデータセットの可用性は、質問応答(QA)の最近の進歩の主要な要因のひとつだ。
しかし、このような注釈付きデータセットは収集が困難でコストがかかり、英語以外の言語にはほとんど存在しない。
大きなモノリンガルトレーニングデータセット構築の代替として、数ショットの学習環境下で事前訓練された言語モデル(PLM)を活用する方法がある。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルがトレーニングされたマルチ言語データを自動的に生成する。
翻訳ベースのベースラインよりも精度が向上し、英語のみのベースラインと、約50,000のラベル付きサンプルでトレーニングされた上界とのギャップの60%近くを橋渡しし、リソース設定でラベル付きサンプルに直接qaモデルを微調整するよりも、常に大幅に改善される。
TyDiQA-GoldPとMLQAベンチマークの実験では、言語間でのデータ合成スケールのプロンプトチューニングがほとんどなく、大規模なアノテーションの代替となることが示されている。
関連論文リスト
- Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。
提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-04T07:29:35Z) - MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。
既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。
本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T15:37:51Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。