論文の概要: ChocoLlama: Lessons Learned From Teaching Llamas Dutch
- arxiv url: http://arxiv.org/abs/2412.07633v1
- Date: Tue, 10 Dec 2024 16:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:38.472196
- Title: ChocoLlama: Lessons Learned From Teaching Llamas Dutch
- Title(参考訳): ChocoLlama:Llamas Dutchの教えから学んだこと
- Authors: Matthieu Meeus, Anthony Rathé, François Remy, Pieter Delobelle, Jens-Joris Decorte, Thomas Demeester,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示している。
彼らのパフォーマンスは、トレーニングデータのバイアスのため、低リソースで非英語の言語で遅れることが多い。
我々は、主に英語のLLM(Llama-2とLlama-3)を、世界中の3000万人が話す言語であるオランダ語に適応するための戦略を探求する。
- 参考スコア(独自算出の注目度): 9.299897103061667
- License:
- Abstract: While Large Language Models (LLMs) have shown remarkable capabilities in natural language understanding and generation, their performance often lags in lower-resource, non-English languages due to biases in the training data. In this work, we explore strategies for adapting the primarily English LLMs (Llama-2 and Llama-3) to Dutch, a language spoken by 30 million people worldwide yet often underrepresented in LLM development. We collect 104GB of Dutch text ($32$B tokens) from various sources to first apply continued pretraining using low-rank adaptation (LoRA), complemented with Dutch posttraining strategies provided by prior work. For Llama-2, we consider using (i) the tokenizer of the original model, and (ii) training a new, Dutch-specific tokenizer combined with embedding reinitialization. We evaluate our adapted models, ChocoLlama-2, both on standard benchmarks and a novel Dutch benchmark, ChocoLlama-Bench. Our results demonstrate that LoRA can effectively scale for language adaptation, and that tokenizer modification with careful weight reinitialization can improve performance. Notably, Llama-3 was released during the course of this project and, upon evaluation, demonstrated superior Dutch capabilities compared to our Dutch-adapted versions of Llama-2. We hence apply the same adaptation technique to Llama-3, using its original tokenizer. While our adaptation methods enhanced Llama-2's Dutch capabilities, we found limited gains when applying the same techniques to Llama-3. This suggests that for ever improving, multilingual foundation models, language adaptation techniques may benefit more from focusing on language-specific posttraining rather than on continued pretraining. We hope this work contributes to the broader understanding of adapting LLMs to lower-resource languages, and to the development of Dutch LLMs in particular.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示してきたが、その性能は、トレーニングデータにバイアスがあるため、低リソースで非英語の言語で遅れることが多い。
本研究では,主に英語のLLM(Llama-2とLlama-3)をオランダ語に適応させる戦略について検討する。
オランダ語テキスト(32ドルBトークン)104GBをさまざまなソースから収集し、まずローランク適応(LoRA)を用いて事前訓練を継続し、先行作業によって提供されるオランダ語のポストトレーニング戦略を補完する。
Llama-2について、我々は利用について検討する
(i)原モデルのトークン化業者、及び
(II) オランダ固有の新しいトークン化剤と組込み再初期化を併用した訓練。
標準ベンチマークとオランダの新しいベンチマークであるChocoLlama-Benchで、適応モデルであるChocoLlama-2を評価した。
この結果から,LoRAは言語適応のために効果的にスケール可能であること,また,注意深い重み回復によるトークン化による改良により,性能が向上することが示唆された。
特に、この計画中にLlama-3がリリースされ、評価によりオランダが適応したLlama-2よりも優れたオランダの能力を実証した。
したがって、Llama-3と同じ適応手法をオリジナルのトークン化器を用いて適用する。
適応手法によりLlama-2のオランダ語能力は向上したが,Llama-3にも同様の手法を適用した場合,利得は限られていた。
これは、多言語基盤モデルを改善するために、言語適応技術は、継続した事前訓練よりも、言語固有のポストトレーニングに焦点を当てることの恩恵を受ける可能性があることを示唆している。
本研究が低リソース言語へのLLMの適用,特にオランダのLLM開発への広範な理解に寄与することを願っている。
関連論文リスト
- Learning-From-Mistakes Prompting for Indigenous Language Translation [3.7790255156708397]
本稿では,低リソースの母国語翻訳を改善する手法を提案する。
我々のアプローチは、限られた数の並列翻訳例からなるデータストアの使用に基礎を置いています。
我々は、LLMをユニバーサルトランスレータとして使用するような設定において、LLMと文脈内学習技術のポテンシャルを利用する。
論文 参考訳(メタデータ) (2024-07-18T09:41:20Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities [2.047424180164312]
Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
我々はDictaLM2.0とDictaLM2.0-Instructを紹介した。
論文 参考訳(メタデータ) (2024-07-09T17:51:37Z) - A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs [21.49482900744541]
ICLと微調整の3つの言語間移動法について検討した。
LLMにおける支配的な言語を介して、追加の監視信号を追加することで、改善がもたらされることが分かりました。
ターゲット言語を単語の並べ替えに適応させることは、ICLでは有益であるが、その影響は微調整によって減少する。
論文 参考訳(メタデータ) (2024-06-25T08:53:46Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual
Speech Recognition [58.849768879796905]
エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークであるAdapt-and-Adjust (A2)を提案する。
A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。
論文 参考訳(メタデータ) (2020-12-03T03:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。