論文の概要: MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.07598v1
- Date: Mon, 15 Jan 2024 11:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:22:56.104288
- Title: MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of
Large Language Models
- Title(参考訳): MAPLE:大規模言語モデルのパラメータ効率の多言語評価
- Authors: Divyanshu Aggarwal, Ashutosh Sathe and Sunayana Sitaram
- Abstract要約: ファインチューニングは、膨大なリソースと計算を必要とせずに、大きな言語モデルの性能を改善するための実行可能なソリューションである。
我々はLLaMA-7BとMistral-7Bモデルを合成多言語命令チューニングデータ上に微調整し、モデル性能への影響を判定する。
ファインタニングによって、低リソース言語のパフォーマンスが向上する一方で、高リソース言語のパフォーマンスが低下することもあります。
- 参考スコア(独自算出の注目度): 8.989140071132855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter efficient finetuning has emerged as a viable solution for improving
the performance of Large Language Models without requiring massive resources
and compute. Prior work on multilingual evaluation has shown that there is a
large gap between the performance of LLMs on English and other languages.
Further, there is also a large gap between the performance of smaller
open-source models and larger LLMs. Finetuning can be an effective way to
bridge this gap and make language models more equitable. In this work, we
finetune the LLaMA-7B and Mistral-7B models on synthetic multilingual
instruction tuning data to determine its effect on model performance on five
downstream tasks covering twenty three languages in all. Additionally, we
experiment with various parameters, such as rank for low-rank adaptation and
values of quantisation to determine their effects on downstream performance and
find that higher rank and higher quantisation values benefit low-resource
languages. We find that parameter efficient finetuning of smaller open source
models sometimes bridges the gap between the performance of these models and
the larger ones, however, English performance can take a hit. We also find that
finetuning sometimes improves performance on low-resource languages, while
degrading performance on high-resource languages.
- Abstract(参考訳): パラメータ効率のよい微調整は、大量のリソースや計算を必要とせずに、大規模言語モデルの性能を向上させるための実行可能なソリューションとして登場した。
多言語評価に関する先行研究は、英語と他の言語におけるLLMの性能の間に大きなギャップがあることを証明している。
さらに、より小さなオープンソースモデルとより大きなLLMの性能の間には大きなギャップがある。
微調整は、このギャップを橋渡し、言語モデルをより公平にする効果的な方法になり得る。
本研究では,LLaMA-7B と Mistral-7B モデルを合成多言語命令チューニングデータ上に微調整し,203言語をカバーする5つの下流タスクにおけるモデル性能に与える影響を判定する。
さらに,低ランク適応のランクや量子化の値といった様々なパラメータを実験し,下流性能への影響を判定し,高ランクと高量子化の値が低リソース言語に有益であることを見出した。
より小さなオープンソースモデルのパラメータ効率の良い微調整は、これらのモデルとより大きなモデルとのギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
また、ファインタニングによって低リソース言語のパフォーマンスが向上し、高リソース言語のパフォーマンスが低下することもあります。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。
低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。
特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文 参考訳(メタデータ) (2024-03-26T09:31:55Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。