論文の概要: Full-Parameter Continual Pretraining of Gemma2: Insights into Fluency and Domain Knowledge
- arxiv url: http://arxiv.org/abs/2505.05946v2
- Date: Thu, 05 Jun 2025 11:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 19:24:15.963644
- Title: Full-Parameter Continual Pretraining of Gemma2: Insights into Fluency and Domain Knowledge
- Title(参考訳): Gemma2のフルパラメータ連続事前学習:周波数とドメイン知識の考察
- Authors: Vytenis Šliogeris, Povilas Daniušis, Artūras Nakvosas,
- Abstract要約: 大規模言語モデル(LLM)を用いた連続学習における言語流布とドメイン知識の関係を実証的に検討する。
具体的には、CulturaXデータセットのリトアニア語コンポーネントの最初の10%に設定された全パラメータを自動回帰的に事前学習することで、リトアニア語におけるGemma2 LLMの言語流用性を高める。
モデルの既存のドメイン知識の破滅的な忘れを防止するために、弾性重み強化(EWC)を適用する。
学習後評価では、難易度による言語流布度を評価し、言語理解ベンチマークの精度を用いてドメイン知識を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we empirically investigate the relationship between linguistic fluency and domain knowledge in the context of continual learning with large language models (LLMs). Specifically, we enhance the linguistic fluency of the Gemma2 LLM for the Lithuanian language by autoregressively pretraining its full parameter set on the first 10\% of the Lithuanian language component of the CulturaX dataset. To prevent catastrophic forgetting of the model's existing domain knowledge, we apply Elastic Weight Consolidation (EWC), leveraging Fisher information estimated using data from the Massive Multitask Language Understanding (MMLU) benchmark. In the post-training evaluations, we assess linguistic fluency through perplexity and evaluate domain knowledge using accuracy on a suite of language understanding benchmarks, including ARC-Easy, Belebele, GSM8K, HellaSwag, MMLU, TruthfulQA, and Winogrande, in both English and Lithuanian. The empirical results demonstrate that EWC not only mitigates catastrophic forgetting by preserving the model's performance in terms of both linguistic fluency and domain knowledge but also improves or maintains these capabilities for the newly added Lithuanian language. These findings highlight the potential for more efficient adaptation of general-purpose LLMs to under-represented languages without requiring access to the original training data. The accompanying codebase is openly accessible at https://github.com/Neurotechnology/LLM_EWC.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いた連続学習における言語流布とドメイン知識の関係を実証的に検討する。
具体的には、CulturaXデータセットの最初の10倍のパラメータに設定された全パラメータを自動回帰的に事前学習することで、リトアニア語におけるGemma2 LLMの言語流用度を高める。
モデルの既存のドメイン知識の破滅的な忘れを防止するため,Multistive Multitask Language Understanding (MMLU)ベンチマークから推定したフィッシャー情報を活用するElastic Weight Consolidation (EWC)を適用した。
学習後評価では、難易度を用いて言語流布度を評価し、ARC-Easy, Belebele, GSM8K, HellaSwag, MMLU, TruthfulQA, Winograndeといった言語理解ベンチマークを用いて、英語とリトアニア語の両方で精度の高いドメイン知識を評価する。
実証実験の結果、EWCは言語流布とドメイン知識の両方の観点からモデルの性能を保ち、破滅的な忘れを緩和するだけでなく、新たに追加されたリトアニア語に対してこれらの能力を改善または維持することを示した。
これらの知見は、元のトレーニングデータにアクセスすることなく、より効率的な汎用LLMを表現下言語に適応する可能性を示している。
付属するコードベースはhttps://github.com/Neurotechnology/LLM_EWCで公開されている。
関連論文リスト
- Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - KGLens: Towards Efficient and Effective Knowledge Probing of Large Language Models with Knowledge Graphs [22.53643028991214]
大きな言語モデル(LLMs)は事実を幻覚させるが、キュレートされた知識グラフ(KGs)は一般的に事実に信頼性がある。
KGsとLLMsのアライメントを測定することで、その事実を効果的に調査し、LLMsの知識盲点を特定することができる。
我々は、KGsとLLMsのアライメントを効果的かつ効率的に測定することを目的とした、トンプソンにインスパイアされたフレームワークであるKGLensを紹介する。
論文 参考訳(メタデータ) (2023-12-15T23:34:05Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。