論文の概要: Improving Training Efficiency and Reducing Maintenance Costs via Language Specific Model Merging
- arxiv url: http://arxiv.org/abs/2601.16127v1
- Date: Thu, 22 Jan 2026 17:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.670475
- Title: Improving Training Efficiency and Reducing Maintenance Costs via Language Specific Model Merging
- Title(参考訳): 言語特化モデルマージによる訓練効率の向上とメンテナンスコスト削減
- Authors: Alphaeus Dmonte, Vidhi Gupta, Daniel J Perry, Mark Arehart,
- Abstract要約: タスク固有の多言語大言語モデル(LLM)を微調整するには、必要なすべての言語で例を挙げて、多言語データセット上でモデルをトレーニングする必要がある。
1つ以上のサポート対象言語を追加データで更新したり、新しい言語のサポートを追加するには、モデルを再トレーニングする必要がある。
近年のマルチリンガルモデルのマージ研究は品質向上を約束しているが、その計算とメンテナンスの効率は未検討のままである。
- 参考スコア(独自算出の注目度): 1.8165993946919816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning a task-specific multilingual large language model (LLM) involves training the model on a multilingual dataset with examples in all the required languages. Updating one or more supported languages with additional data or adding support for a new language involves retraining the model, which can be computationally inefficient and creates a severe maintenance bottleneck. Recent research on merging multilingual multitask models has shown promise in terms of improved quality, but its computational and maintenance efficiency remains unstudied. In this work, we provide the first focused analysis of this merging strategy from an efficiency perspective, evaluating it across three independent tasks. We demonstrate significant efficiency gains while maintaining parity in terms of quality: this merging approach reduces the initial training time by up to 50\%. We also demonstrate that updating an individual language and re-merging as part of model maintenance reduces training costs by more than 60\%, compared to re-training the full multilingual model. We show this on both public and proprietary industry datasets confirming that the approach works well for industrial use cases in addition to academic settings already studied in previous work.
- Abstract(参考訳): タスク固有の多言語大言語モデル(LLM)を微調整するには、必要なすべての言語で例を挙げて、多言語データセット上でモデルをトレーニングする必要がある。
1つ以上のサポート対象言語を追加データで更新したり、新しい言語のサポートを追加するには、モデルを再トレーニングする必要がある。
マルチ言語マルチタスクモデルの統合に関する最近の研究は、品質向上の観点からは有望であるが、その計算とメンテナンスの効率は未検討のままである。
本研究では,この統合戦略を効率の観点から初めて分析し,これらを3つの独立したタスクで評価する。
このマージアプローチは、初期トレーニング時間を最大50%削減します。
また,個別の言語を更新し,モデルメンテナンスの一部として再統合することで,完全多言語モデルの再学習に比べてトレーニングコストが60倍以上削減されることを示す。
この手法が産業のユースケースに有効であることを確認するために,すでに研究されている学術的環境に加えて,パブリックおよびプロプライエタリな産業データセット上でこれを実証する。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability [31.025371443719404]
自己翻訳-トレイン(Self-Translate-Train)は、大規模言語モデルがトレーニングデータをターゲット言語に翻訳し、自身の生成されたデータに基づいてモデルを微調整する手法である。
自己翻訳-トレインがゼロショット転送より優れていることを示すことによって、LLMの言語間機能を引き出すためのより良い手法のさらなる探索を奨励する。
論文 参考訳(メタデータ) (2024-06-29T14:40:23Z) - Efficiently Upgrading Multilingual Machine Translation Models to Support
More Languages [18.633630899562704]
マルチリンガル機械翻訳(MMT)モデルは、サイズとサポート言語の数が増え続けている。
データがより多くの言語で利用可能になるにつれて、計算を節約するために既存のモデルを再利用し、アップグレードするのは自然なことです。
しかし、新しい言語を追加するには、埋め込みの再利用を複雑にする語彙を更新する必要がある。
我々は,新しい言語を効果的に学習し,破滅的な忘れを和らげる3つの手法を導入する。
論文 参考訳(メタデータ) (2023-02-07T15:20:13Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - On Efficiently Acquiring Annotations for Multilingual Models [12.304046317362792]
一つのモデルを用いて複数の言語にまたがる共同学習の戦略は、上記の選択肢よりもかなり優れていることを示す。
この単純なアプローチにより、アノテーションの予算を不確実な言語に問い合わせることによって、モデルがデータ効率を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-03T07:42:13Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。