論文の概要: Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
- arxiv url: http://arxiv.org/abs/2504.17025v1
- Date: Wed, 23 Apr 2025 18:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.13329
- Title: Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
- Title(参考訳): イタリア語用LLMの最適化:語彙適応によるトークンの肥育と効率向上
- Authors: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli,
- Abstract要約: State-of-the-art Large Language Models (LLMs) は、言語汚染やある程度の多言語事前学習データのために、他の言語を扱えるが、非英語言語には最適化されていない。
本研究では,イタリア語のLLMを最適化するための様々な語彙適応手法を徹底的に比較する。
我々はMistral-7b-v0.1とLlama-3.1-8Bの2つのLLMを適用し、語彙を最適化しパラメータ数を10億に減らした。
- 参考スコア(独自算出の注目度): 39.60572668223083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The number of pretrained Large Language Models (LLMs) is increasing steadily, though the majority are designed predominantly for the English language. While state-of-the-art LLMs can handle other languages, due to language contamination or some degree of multilingual pretraining data, they are not optimized for non-English languages, leading to inefficient encoding (high token "fertility") and slower inference speed. In this work, we thoroughly compare a variety of vocabulary adaptation techniques for optimizing English LLMs for the Italian language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a novel method that leverages neural mapping for vocabulary substitution. SAVA achieves competitive performance across multiple downstream tasks, enhancing grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and reducing the number of parameters by 1 billion. We show that, following the adaptation of the vocabulary, these models can recover their performance with a relatively limited stage of continual training on the target language. Finally, we test the capabilities of the adapted models on various multi-choice and generative tasks.
- Abstract(参考訳): 事前訓練されたLarge Language Models (LLMs) の数は着実に増加しているが、大多数は英語向けに設計されている。
最先端のLLMは、言語汚染やある程度の多言語事前学習データのために他の言語を扱えるが、非英語言語には最適化されておらず、非効率な符号化(ハイトークン「フェタリティ」)や推論速度の低下につながる。
本研究では,イタリア語のLLMを最適化するための様々な語彙適応手法を徹底的に比較し,語彙置換のためのニューラルマッピングを利用する新しい手法であるセマンティックアライメント語彙適応(SAVA)を提唱する。
SAVAは、複数の下流タスク間での競合的なパフォーマンスを実現し、接地されたアライメント戦略を強化する。
我々はMistral-7b-v0.1とLlama-3.1-8Bの2つのLLMを適用し、語彙を最適化し、パラメータ数を10億に減らした。
語彙の適応により、これらのモデルは、ターゲット言語上での連続訓練の比較的限られた段階において、その性能を回復できることを示す。
最後に、適応モデルの性能を様々なマルチ選択および生成タスクで検証する。
関連論文リスト
- Franken-Adapter: Cross-Lingual Adaptation of LLMs by Embedding Surgery [31.516243610548635]
我々は,デコーダのみの大規模言語モデルに対するモジュール型言語適応アプローチであるtextitFranken-Adapter$を提示する。
提案手法は,対象言語用にカスタマイズされた語彙を作成し,多言語データへの組込みによる言語適応を行うことから始める。
最大27Bパラメータを持つ$ttGemma2$モデルの実験では、96言語で最大20%の改善が示され、識別的タスクと生成的タスクの両方にまたがっている。
論文 参考訳(メタデータ) (2025-02-12T00:38:11Z) - Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? [23.83290627671739]
VocADTは、既存の埋め込みの最適線形結合を学ぶために訓練されたアダプタモジュールを用いた語彙適応の新しい手法である。
ラテン文字言語と高度に断片化された言語は語彙適応の恩恵を最も受ける。
論文 参考訳(メタデータ) (2024-10-12T20:45:24Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - Bridging the Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
しかしながら、その傾向と有効性は、非ラテン文字や低リソース言語に限られている。
本稿では,LLMの多言語的性能向上を,広範囲の訓練や微調整を伴わずに行うことの必須課題に対処する。
論文 参考訳(メタデータ) (2024-05-28T16:56:42Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference [38.1823640848362]
State-of-the-the-art Generative Large Language Model (LLM) は、英語中心のトークン化器、語彙、事前学習データに依存している。
近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
論文 参考訳(メタデータ) (2024-02-16T14:15:15Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。