論文の概要: Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2
- arxiv url: http://arxiv.org/abs/2505.05946v1
- Date: Fri, 09 May 2025 10:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.233432
- Title: Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2
- Title(参考訳): Gemma2のフルパラメータ連続前処理のための弾性重み強化
- Authors: Vytenis Šliogeris, Povilas Daniušis, Artūras Nakvosas,
- Abstract要約: モデルパラメータの完全な集合に弾性重み強化を適用する。
本稿では,Arc,Belebele,Gsm8K,Hellaswag,MMLU,TruthfulQA,Winograndeからなる言語理解ベンチマークについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report describes an experiment on autoregressive pre-training of Gemma2 2 billion parameter large language model (LLM) with 10\% on the Lithuanian language component of CulturaX from the point of view of continual learning. We apply elastic weight consolidation (EWC) to the full set of the model's parameters and investigate language understanding benchmarks, consisting of Arc, Belebele, Gsm8K, Hellaswag, MMLU, TruthfulQA, and Winogrande sets (both in English and Lithuanian versions), and perplexity benchmarks. We empirically demonstrate that EWC regularisation allows us not only to mitigate catastrophic forgetting effects but also that it is potentially beneficial for learning of the new task with LLMs.
- Abstract(参考訳): 本技術報告では,CulturaX のリトアニア語コンポーネントに 10 % の Gemma2 パラメータ大言語モデル (LLM) の自己回帰事前学習実験について,連続学習の観点から述べる。
モデルのパラメータの完全な集合に弾性重み強化(EWC)を適用し、Arc, Belebele, Gsm8K, Hellaswag, MMLU, TruthfulQA, Winogrande セット(英語版とリトアニア語版の両方)とパープレキシティベンチマークからなる言語理解ベンチマークを調査する。
我々は、EWC正則化が破滅的忘れの影響を軽減するだけでなく、新たなタスクをLLMで学習する上で有益である可能性を実証した。
関連論文リスト
- Aligning Knowledge Graphs and Language Models for Factual Accuracy [7.205708660952737]
本稿では,ALIGNed-LLMを提案する。
我々は、TransEのようなトレーニング済みの知識グラフ埋め込み(KGE)モデルとトレーニング可能なプロジェクション層からの埋め込みを使用して、エンティティとテキストの埋め込みを調整します。
論文 参考訳(メタデータ) (2025-07-17T08:15:50Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Assessing Language Comprehension in Large Language Models Using Construction Grammar [3.0906699069248806]
構築文法(CxG)は、構築(Cxns)として知られる言語要素によって捉えられる意味に関する洞察を提供する。
これらのデータセットは、事前学習データには現れないような例を含むように慎重に構築されているが、人間が理解するのは直感的で容易である。
我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
論文 参考訳(メタデータ) (2025-01-08T18:15:10Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages [1.7436854281619139]
オープンドメイン対話システムに使用される大規模事前学習言語モデル(PLM)の言語ポータビリティ戦略について検討する。
特に、ターゲットの低リソース言語(L_T)は、タスク固有のリソースがないため、フランス語でシミュレートされる。
論文 参考訳(メタデータ) (2024-07-01T14:20:54Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - KGLens: Towards Efficient and Effective Knowledge Probing of Large Language Models with Knowledge Graphs [22.53643028991214]
大きな言語モデル(LLMs)は事実を幻覚させるが、キュレートされた知識グラフ(KGs)は一般的に事実に信頼性がある。
KGsとLLMsのアライメントを測定することで、その事実を効果的に調査し、LLMsの知識盲点を特定することができる。
我々は、KGsとLLMsのアライメントを効果的かつ効率的に測定することを目的とした、トンプソンにインスパイアされたフレームワークであるKGLensを紹介する。
論文 参考訳(メタデータ) (2023-12-15T23:34:05Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。