論文の概要: ELO: Efficient Layer-Specific Optimization for Continual Pretraining of Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2601.03648v1
- Date: Wed, 07 Jan 2026 06:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.358355
- Title: ELO: Efficient Layer-Specific Optimization for Continual Pretraining of Multilingual LLMs
- Title(参考訳): ELO:多言語LLMの連続事前学習のための高能率層比最適化
- Authors: HanGyeol Yoo, ChangSu Choi, Minjun Kim, Seohyun Song, SeungWoo Song, Inho Won, Jongyoul Park, Cheoneum Park, KyungTae Lim,
- Abstract要約: 多言語大言語モデル(MLLM)における特定の言語に対する連続事前学習(CP)を強化するための効率的なレイヤ固有最適化(ELO)手法を提案する。
ELO法は2つの主要な段階から構成される: 1) ELO事前学習(ELO Pretraining)は、実験で重要な第1層と第2層と同定され、元のMLLMから切り離され、ターゲット言語で訓練される。
実験結果から,ELO法は従来の手法に比べて最大6.46倍の高速化を実現し,定性ベンチマークでは最大6.2%向上した。
- 参考スコア(独自算出の注目度): 10.015119836510332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient layer-specific optimization (ELO) method designed to enhance continual pretraining (CP) for specific languages in multilingual large language models (MLLMs). This approach addresses the common challenges of high computational cost and degradation of source language performance associated with traditional CP. The ELO method consists of two main stages: (1) ELO Pretraining, where a small subset of specific layers, identified in our experiments as the critically important first and last layers, are detached from the original MLLM and trained with the target language. This significantly reduces not only the number of trainable parameters but also the total parameters computed during the forward pass, minimizing GPU memory consumption and accelerating the training process. (2) Layer Alignment, where the newly trained layers are reintegrated into the original model, followed by a brief full fine-tuning step on a small dataset to align the parameters. Experimental results demonstrate that the ELO method achieves a training speedup of up to 6.46 times compared to existing methods, while improving target language performance by up to 6.2\% on qualitative benchmarks and effectively preserving source language (English) capabilities.
- Abstract(参考訳): 本稿では,多言語大言語モデル(MLLM)における特定の言語に対する連続事前学習(CP)の強化を目的とした,効率的なレイヤ固有最適化(ELO)手法を提案する。
提案手法は,従来のCPに付随する高計算コストとソースコード性能の低下という共通課題に対処する。
ELO法は2つの主要な段階から構成される: 1) ELO事前学習(ELO Pretraining)は、実験で重要な第1層と第2層と同定され、元のMLLMから切り離され、ターゲット言語で訓練される。
これにより、トレーニング可能なパラメータの数だけでなく、フォワードパス中に計算された総パラメータも大幅に削減され、GPUメモリ消費が最小化され、トレーニングプロセスが高速化される。
2) 新たにトレーニングされたレイヤが元のモデルに再統合されるレイヤアライメント。
実験結果から,ELO法は既存の手法に比べて最大6.46倍の高速化を実現し,定性ベンチマークでは最大6.2倍の性能向上を実現し,ソースコード(英語)機能を効果的に維持できることがわかった。
関連論文リスト
- SCOPE: Language Models as One-Time Teacher for Hierarchical Planning in Text Environments [4.375012768093524]
テキストベースの環境における長期計画は、オープンエンドアクションスペース、あいまいな観察、まばらなフィードバックによる重要な課題を示す。
近年の研究では、大規模言語モデル(LLM)が世界に関する豊富な意味知識をエンコードしていることが示唆されている。
既存のアプローチは、トレーニングや推論中にLLMを問い合わせることに大きく依存することが多く、計算コストが高く、効率的なデプロイが困難である。
LLM生成サブゴールを利用したワンショット階層型プランナーSCOPE(Subgoal-Conditioned Pretraining for Efficient Planning)を導入する。
論文 参考訳(メタデータ) (2025-12-10T18:26:14Z) - Enhancing Non-English Capabilities of English-Centric Large Language Models through Deep Supervision Fine-Tuning [42.166438218926274]
本稿では、モデルの内部層にさらなる監視を取り入れ、ワークフローをガイドする深層監視微調整法(DFT)を提案する。
提案手法は,非英語入力処理における最終生成結果だけでなく,内部表現の精度も保証する。
論文 参考訳(メタデータ) (2025-03-03T07:59:32Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。
我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。
対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文 参考訳(メタデータ) (2024-10-16T07:45:56Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。