論文の概要: Few-Shot Multilingual Open-Domain QA from 5 Examples
- arxiv url: http://arxiv.org/abs/2502.19722v1
- Date: Thu, 27 Feb 2025 03:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:21.794451
- Title: Few-Shot Multilingual Open-Domain QA from 5 Examples
- Title(参考訳): 5つの例からみた少数ショット多言語オープンドメインQA
- Authors: Fan Jiang, Tom Drummond, Trevor Cohn,
- Abstract要約: 我々は,大規模言語モデル(LLM)から大規模多言語データを合成するためのemphfew-shot学習手法を提案する。
提案手法はWikiDataを用いた大規模自己教師付き事前学習から始まり,LLMを数発の監視で生成した高品質な合成多言語データを訓練する。
最終的なモデルである textscFsModQA は、MLODQA における既存の少数ショットベースラインと教師付きベースラインと、言語横断とモノリンガル検索を著しく上回る。
- 参考スコア(独自算出の注目度): 44.04243892727856
- License:
- Abstract: Recent approaches to multilingual open-domain question answering (MLODQA) have achieved promising results given abundant language-specific training data. However, the considerable annotation cost limits the application of these methods for underrepresented languages. We introduce a \emph{few-shot learning} approach to synthesise large-scale multilingual data from large language models (LLMs). Our method begins with large-scale self-supervised pre-training using WikiData, followed by training on high-quality synthetic multilingual data generated by prompting LLMs with few-shot supervision. The final model, \textsc{FsModQA}, significantly outperforms existing few-shot and supervised baselines in MLODQA and cross-lingual and monolingual retrieval. We further show our method can be extended for effective zero-shot adaptation to new languages through a \emph{cross-lingual prompting} strategy with only English-supervised data, making it a general and applicable solution for MLODQA tasks without costly large-scale annotation.
- Abstract(参考訳): MLODQA(Multilingual Open-Domain Question answering)に対する最近のアプローチは、豊富な言語固有のトレーニングデータから有望な結果を得た。
しかし、アノテーションのかなりのコストは、表現不足言語に対するこれらの手法の適用を制限する。
本稿では,大規模言語モデル (LLM) から大規模多言語データを合成するための 'emph{few-shot learning} アプローチを提案する。
提案手法はWikiDataを用いた大規模自己教師付き事前学習から始まり,LLMを数発の監視で促し,高品質な合成多言語データを訓練する。
最後のモデルである \textsc{FsModQA} は、MLODQA における既存の少数ショットベースラインと教師付きベースラインと、言語横断とモノリンガル検索を著しく上回る。
さらに, MLODQAタスクに対して, 大規模アノテーションを伴わない汎用的かつ汎用的な手法として, 英語教師付きデータのみを用いた 'emph{cross-lingual prompting} 戦略により, 新言語への効果的なゼロショット適応に拡張可能であることを示す。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。