Fugu-MT 論文翻訳(概要): MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models

論文の概要: MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models

arxiv url: http://arxiv.org/abs/2401.07598v3
Date: Mon, 22 Jul 2024 11:13:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 03:02:44.551082
Title: MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models
Title（参考訳）: MAPLE:大規模言語モデルのパラメータ効率的なファインタニングの多言語評価
Authors: Divyanshu Aggarwal, Ashutosh Sathe, Ishaan Watts, Sunayana Sitaram,
Abstract要約: ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。 LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
参考スコア（独自算出の注目度）: 7.321459642283822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter Efficient Finetuning (PEFT) has emerged as a viable solution for improving the performance of Large Language Models (LLMs) without requiring massive resources and compute. Prior work on multilingual evaluation has shown that there is a large gap between the performance of LLMs on English and other languages. Further, there is also a large gap between the performance of smaller open-source models and larger LLMs. Finetuning can be an effective way to bridge this gap and make language models more equitable. In this work, we finetune the LLama-2-7B and Mistral-7B models on two synthetic multilingual instruction tuning datasets to determine its effect on model performance on six downstream tasks covering forty languages in all. Additionally, we experiment with various parameters, such as rank for low-rank adaptation and values of quantisation to determine their effects on downstream performance and find that higher rank and higher quantisation values benefit low-resource languages. We find that PEFT of smaller open-source models sometimes bridges the gap between the performance of these models and the larger ones, however, English performance can take a hit. We also find that finetuning sometimes improves performance on low-resource languages, while degrading performance on high-resource languages.
Abstract（参考訳）: パラメータ効率のよいファインタニング(PEFT)は,大規模言語モデル(LLM)の性能向上のための実現可能なソリューションとして,膨大なリソースや計算資源を必要としない。多言語評価に関する先行研究は、英語と他の言語におけるLLMの性能の間に大きなギャップがあることを証明している。さらに、より小さなオープンソースモデルとより大きなLLMのパフォーマンスの間には大きなギャップがある。ファインタニングは、このギャップを埋め、言語モデルをより公平にするための効果的な方法です。本研究では,LLama-2-7BとMistral-7Bを2つの合成多言語命令チューニングデータセット上で微調整し,そのモデル性能が40言語をカバーする6つの下流タスクに与える影響を判定する。さらに、低ランク適応のランクや量子化の値など、様々なパラメータを実験して、下流の性能への影響を判定し、高位と高位の量子化値が低リソース言語に有効であることを示す。小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。また、ファインタニングによって低リソース言語のパフォーマンスが向上し、高リソース言語のパフォーマンスが低下することもあります。

関連論文リスト

Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文参考訳（メタデータ） (2025-07-25T22:35:10Z)
Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Domain-Specific Translation with Open-Source Large Language Models: Resource-Oriented Analysis [0.0]
オープンソースの自己回帰型デコーダ専用大言語モデル(LLM)のドメイン固有翻訳性能とタスク指向機械翻訳(MT)モデルとの比較を行った。実験では,医療領域に焦点をあて,資源利用率の異なる4つの言語方向をカバーした。
論文参考訳（メタデータ） (2024-12-08T08:54:13Z)
Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。 52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文参考訳（メタデータ） (2024-11-27T18:14:38Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文参考訳（メタデータ） (2024-04-25T14:34:47Z)
Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文参考訳（メタデータ） (2024-03-26T09:31:55Z)
On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-11-14T00:43:33Z)
Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文参考訳（メタデータ） (2023-10-12T22:44:19Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。