論文の概要: GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning
- arxiv url: http://arxiv.org/abs/2404.09163v1
- Date: Sun, 14 Apr 2024 06:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 15:17:37.418796
- Title: GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning
- Title(参考訳): GeMQuAD : 少数ショット学習を用いた大規模言語モデルからの多言語質問応答データセットの生成
- Authors: Amani Namboori, Shivam Mangale, Andy Rosenbaum, Saleh Soltan,
- Abstract要約: 本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
- 参考スコア(独自算出の注目度): 4.8838210812204235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Language Models (LLMs) with capabilities like In-Context Learning (ICL) has ushered in new possibilities for data generation across various domains while minimizing the need for extensive data collection and modeling techniques. Researchers have explored ways to use this generated synthetic data to optimize smaller student models for reduced deployment costs and lower latency in downstream tasks. However, ICL-generated data often suffers from low quality as the task specificity is limited with few examples used in ICL. In this paper, we propose GeMQuAD - a semi-supervised learning approach, extending the WeakDAP framework, applied to a dataset generated through ICL with just one example in the target language using AlexaTM 20B Seq2Seq LLM. Through our approach, we iteratively identify high-quality data to enhance model performance, especially for low-resource multilingual setting in the context of Extractive Question Answering task. Our framework outperforms the machine translation-augmented model by 0.22/1.68 F1/EM (Exact Match) points for Hindi and 0.82/1.37 F1/EM points for Spanish on the MLQA dataset, and it surpasses the performance of model trained on an English-only dataset by 5.05/6.50 F1/EM points for Hindi and 3.81/3.69 points F1/EM for Spanish on the same dataset. Notably, our approach uses a pre-trained LLM for generation with no fine-tuning (FT), utilizing just a single annotated example in ICL to generate data, providing a cost-effective development process.
- Abstract(参考訳): In-Context Learning(ICL)のような機能を備えたLarge Language Models(LLM)の出現は、広範囲なデータ収集とモデリング技術の必要性を最小限にしつつ、さまざまなドメインにわたるデータ生成の新たな可能性を生み出している。
研究者は、生成された合成データを使用して、より小さな学生モデルを最適化し、デプロイメントコストを削減し、下流タスクのレイテンシを下げる方法を模索している。
しかし、ICLが生成するデータは、タスク特異性に制限があり、ICLで使われる例はほとんどないため、低品質に悩まされることが多い。
本稿では,AlexaTM 20B Seq2Seq LLM を用いて ICL を用いて生成されたデータセットに適用した,半教師付き学習手法 GeMQuAD を提案する。
提案手法により,特に抽出質問応答タスクの文脈における低リソース多言語設定において,モデル性能を向上させるための高品質なデータを反復的に同定する。
我々のフレームワークは、Hindiで0.22/1.68 F1/EM(Exact Match)ポイント、MLQAデータセットで0.82/1.37 F1/EMポイント、Hindiで5.05/6.50 F1/EMポイント、同じデータセットで3.81/3.69ポイントF1/EMでトレーニングされた英語のみのデータセットでトレーニングされたモデルのパフォーマンスを上回っている。
特に、本手法では、ICLの注釈付き例を1つだけ利用してデータ生成を行い、コスト効率の良い開発プロセスを提供する。
関連論文リスト
- Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing [9.338266891598973]
CLASPはAlexaTM 20Bから合成データを生成し、モデルのトレーニングセットを40倍小さくする(500Mパラメータ)。
低リソース環境での2つのデータセットを評価する。348例または16例の実例を含む英語PIZZAと、トレーニングデータが英語でのみ利用できるmTOPクロスランガルゼロショットである。
論文 参考訳(メタデータ) (2022-10-13T15:01:03Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。