論文の概要: MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.07598v2
- Date: Tue, 20 Feb 2024 08:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:53:02.196353
- Title: MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of
Large Language Models
- Title(参考訳): MAPLE:大規模言語モデルのパラメータ効率の多言語評価
- Authors: Divyanshu Aggarwal, Ashutosh Sathe, Ishaan Watts and Sunayana Sitaram
- Abstract要約: ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。
LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。
小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
- 参考スコア(独自算出の注目度): 7.998168689120558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter Efficient Finetuning (PEFT) has emerged as a viable solution for
improving the performance of Large Language Models (LLMs) without requiring
massive resources and compute. Prior work on multilingual evaluation has shown
that there is a large gap between the performance of LLMs on English and other
languages. Further, there is also a large gap between the performance of
smaller open-source models and larger LLMs. Finetuning can be an effective way
to bridge this gap and make language models more equitable. In this work, we
finetune the LLama-2-7B and Mistral-7B models on two synthetic multilingual
instruction tuning datasets to determine its effect on model performance on six
downstream tasks covering forty languages in all. Additionally, we experiment
with various parameters, such as rank for low-rank adaptation and values of
quantisation to determine their effects on downstream performance and find that
higher rank and higher quantisation values benefit low-resource languages. We
find that PEFT of smaller open-source models sometimes bridges the gap between
the performance of these models and the larger ones, however, English
performance can take a hit. We also find that finetuning sometimes improves
performance on low-resource languages, while degrading performance on
high-resource languages.
- Abstract(参考訳): パラメータ効率のよいファインタニング(PEFT)は,大規模言語モデル(LLM)の性能向上のための有効なソリューションとして,膨大なリソースや計算資源を必要としない。
多言語評価に関する先行研究は、英語と他の言語におけるLLMの性能の間に大きなギャップがあることを証明している。
さらに、より小さなオープンソースモデルとより大きなLLMの性能の間には大きなギャップがある。
微調整は、このギャップを橋渡し、言語モデルをより公平にする効果的な方法になり得る。
本研究では,LLama-2-7BとMistral-7Bを2つの合成多言語命令チューニングデータセット上で微調整し,そのモデル性能が40言語をカバーする6つの下流タスクに与える影響を判定する。
さらに,低ランク適応のランクや量子化の値といった様々なパラメータを実験し,下流性能への影響を判定し,高ランクと高量子化の値が低リソース言語に有益であることを見出した。
小さいオープンソースモデルのPEFTは、これらのモデルと大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
また、ファインタニングによって低リソース言語のパフォーマンスが向上し、高リソース言語のパフォーマンスが低下することもあります。
関連論文リスト
- adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource
Languages with Integrated LLM Playgrounds [2.648836772989769]
adaptMLLMは、機械翻訳のための細調整多言語言語モデル(MLLM)のためのオープンソースツールである。
モデル評価のためのさまざまなメトリクスと、アプリケーション内で直接変換サービスとしてモデルをデプロイする機能を提供する。
AdaptMLLMシステムはLoResMT 2021の共有タスクのベースラインと比較して大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T14:49:18Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.501728534887455]
24個の単言語LLMと多言語LLMを学習し,トークン化剤の選択がLLM下流性能に及ぼす影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンス、トレーニング、推論コストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - MicroBERT: Effective Training of Low-resource Monolingual BERTs through
Parameter Reduction and Multitask Learning [12.640283469603357]
トランスフォーマー言語モデル(TLM)は、ほとんどのNLPタスクには必須であるが、必要な事前学習データが多いため、低リソース言語では作成が困難である。
本研究では,低リソース環境下でモノリンガルなTLMを訓練する2つの手法について検討する。
7つの多様な言語から得られた結果から,私たちのモデルであるMicroBERTは,典型的なモノリンガルなTLM事前学習手法と比較して,下流タスク評価において顕著な改善を達成できたことが示唆された。
論文 参考訳(メタデータ) (2022-12-23T18:18:20Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。