論文の概要: Train Separately, Merge Together: Modular Post-Training with Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2604.18473v1
- Date: Mon, 20 Apr 2026 16:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.993275
- Title: Train Separately, Merge Together: Modular Post-Training with Mixture-of-Experts
- Title(参考訳): 列車の分離, 合併: 混合実験によるモジュラー後訓練
- Authors: Jacob Morrison, Sanjay Adhikesaven, Akshita Bhagia, Matei Zaharia, Noah A. Smith, Sewon Min,
- Abstract要約: 本稿では、独立したドメインエキスパートを訓練するBARについて、それぞれ独自の中級訓練、教師付き微調整、強化学習パイプラインを用いて、軽量ルータトレーニングを備えたMixture-of-Expertsアーキテクチャを用いて構成する。
7Bスケールでは、数学、コード、ツールの使用、安全性の専門家がおり、総合スコアは49.1である。
各ドメインを分離することで、後期のRLが早期のトレーニング段階から機能を低下させたときに発生する破滅的な忘れを回避し、ドメインの更新や追加のコストと複雑さを著しく低減する。
- 参考スコア(独自算出の注目度): 76.12264847243816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending a fully post-trained language model with new domain capabilities is fundamentally limited by monolithic training paradigms: retraining from scratch is expensive and scales poorly, while continued training often degrades existing capabilities. We present BAR (Branch-Adapt-Route), which trains independent domain experts, each through its own mid-training, supervised finetuning, and reinforcement learning pipeline, and composes them via a Mixture-of-Experts architecture with lightweight router training. Unlike retraining approaches that mix all domains and require full reprocessing for any update (with cost scaling quadratically), BAR enables updating individual experts independently with linear cost scaling and no degradation to existing domains. At the 7B scale, with experts for math, code, tool use, and safety, BAR achieves an overall score of 49.1 (averaged across 7 evaluation categories), matching or exceeding re-training baselines (47.8 without mid-training, 50.5 with). We further show that modular training provides a structural advantage: by isolating each domain, it avoids the catastrophic forgetting that occurs when late-stage RL degrades capabilities from earlier training stages, while significantly reducing the cost and complexity of updating or adding a domain. Together, these results suggest that decoupled, expert-based training is a scalable alternative to monolithic retraining for extending language models.
- Abstract(参考訳): 完全にトレーニング後の言語モデルを新しいドメイン機能で拡張することは、基本的にモノリシックなトレーニングパラダイムによって制限される。
BAR(Branch-Adapt-Route)は、独立したドメインエキスパートを訓練し、それぞれが独自の中級トレーニング、教師付きファインタニング、強化学習パイプラインを通じて学習し、軽量ルータトレーニングを備えたMixture-of-Expertsアーキテクチャを介して構成する。
すべてのドメインを混在させ、すべての更新のために完全な再処理を必要とするリトレーニングアプローチとは違って、BARは、線形コストスケーリングと既存のドメインの劣化を伴わず、個々の専門家を独立して更新することを可能にする。
7Bスケールでは、数学、コード、ツールの使用、安全性の専門家が参加し、総合スコアは49.1(平均は7つの評価カテゴリーにまたがる)で、リトレーニングベースライン(中級トレーニングなし47.8、中級トレーニングなし50.5)と一致または超えている。
それぞれのドメインを分離することで、後期RLが早期のトレーニング段階から機能を劣化させたときに発生する破滅的な忘れを回避し、ドメインの更新や追加のコストと複雑さを著しく低減します。
これらの結果は、分離された専門家ベースのトレーニングが、言語モデルを拡張するためのモノリシックなリトレーニングに代わるスケーラブルな代替手段であることを示唆している。
関連論文リスト
- Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T18:12:10Z) - EvoLM: In Search of Lost Language Model Training Dynamics [97.69616550374579]
EvoLMは、事前トレーニング、継続事前トレーニング、教師付き微調整、強化学習を含む、LMのトレーニングダイナミクスの体系的かつ透過的な分析を可能にするモデルスイートである。
1Bおよび4Bパラメータを持つ100以上のLMをスクラッチからトレーニングすることにより、上流(言語モデリング)と下流(確率解決)の両方の推論能力を評価する。
論文 参考訳(メタデータ) (2025-06-19T04:58:47Z) - Optimizing Large Model Training through Overlapped Activation Recomputation [24.28543166026873]
我々は、トレーニングパイプラインにおける通信と重複する再計算によってオーバーヘッドを削減する新しい再計算フレームワークであるLynxを紹介する。
1.3B-23Bパラメータを持つGPTモデルによる包括的評価の結果,Lynxは既存の再計算手法よりも1.37倍高い性能を示した。
論文 参考訳(メタデータ) (2024-06-13T02:31:36Z) - Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。
外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。
このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文 参考訳(メタデータ) (2024-03-06T05:13:23Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Decoupled Training: Return of Frustratingly Easy Multi-Domain Learning [20.17925272562433]
マルチドメイン学習は、複数の重複するが識別できないドメインにわたって、最小限の平均リスクでモデルをトレーニングすることを目的としている。
本稿では,D-Train(Decoupled Training, D-Train)を提案する。
D-Trainは、まずルートモデルを温めるためにすべてのドメインで事前訓練を行い、その後、複数のヘッドに分割して各ドメインでトレーニングを行い、最後にバックボーンを固定して頭部を微調整する3段階の総合訓練戦略である。
論文 参考訳(メタデータ) (2023-09-19T04:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。