論文の概要: Less is More: Undertraining Experts Improves Model Upcycling
- arxiv url: http://arxiv.org/abs/2506.14126v1
- Date: Tue, 17 Jun 2025 02:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.300686
- Title: Less is More: Undertraining Experts Improves Model Upcycling
- Title(参考訳): より少ない - モデルアップサイクルを改善する専門家の訓練
- Authors: Stefan Horoi, Guy Wolf, Eugene Belilovsky, Gintare Karolina Dziugaite,
- Abstract要約: 専門的な微調整がモデルアップサイクルにどのように影響するかを示す。
この劣化は、いくつかの難しい例の記憶にさかのぼる。
タスク依存型アグレッシブ・アーリー・ストップ・ストラテジーは,アップサイクリング性能を著しく向上させることができることを示す。
- 参考スコア(独自算出の注目度): 28.79396346914521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep learning is increasingly characterized by the use of open-weight foundation models that can be fine-tuned on specialized datasets. This has led to a proliferation of expert models and adapters, often shared via platforms like HuggingFace and AdapterHub. To leverage these resources, numerous model upcycling methods have emerged, enabling the reuse of fine-tuned models in multi-task systems. A natural pipeline has thus formed to harness the benefits of transfer learning and amortize sunk training costs: models are pre-trained on general data, fine-tuned on specific tasks, and then upcycled into more general-purpose systems. A prevailing assumption is that improvements at one stage of this pipeline propagate downstream, leading to gains at subsequent steps. In this work, we challenge that assumption by examining how expert fine-tuning affects model upcycling. We show that long fine-tuning of experts that optimizes for their individual performance leads to degraded merging performance, both for fully fine-tuned and LoRA-adapted models, and to worse downstream results when LoRA adapters are upcycled into MoE layers. We trace this degradation to the memorization of a small set of difficult examples that dominate late fine-tuning steps and are subsequently forgotten during merging. Finally, we demonstrate that a task-dependent aggressive early stopping strategy can significantly improve upcycling performance.
- Abstract(参考訳): 現代のディープラーニングは、特別なデータセットで微調整できるオープンウェイト基盤モデルを使用することによって、ますます特徴付けられる。
これにより、HuggingFaceやAdapterHubといったプラットフォームを通じて共有される、エキスパートモデルとアダプタの急増につながった。
これらの資源を活用するために、マルチタスクシステムにおける微調整モデルの再利用を可能にする、多数のモデルアップサイクリング手法が出現した。
これにより、移行学習の利点を生かし、サンクトレーニングコストを償却する自然パイプラインが形成された。モデルは一般的なデータに基づいて事前トレーニングされ、特定のタスクで微調整され、より汎用的なシステムにリサイクルされる。
一般的な仮定は、このパイプラインの1つの段階での改善が下流に伝播し、その後のステップで利益を得るというものである。
本研究では,専門家の微調整がモデル更新にどのように影響するかを調べることで,その仮定に挑戦する。
個々の性能を最適化する専門家の長時間の微調整により、完全微調整モデルとLoRA適応モデルの両方でマージ性能が低下し、LoRAアダプタをMoE層にリサイクルした場合のダウンストリーム結果が悪化することを示す。
この劣化は、後続の微調整ステップを支配し、その後マージ時に忘れられる、いくつかの難しい例の記憶に遡る。
最後に,タスク依存型アグレッシブ早期停止戦略により,アップサイクル性能が著しく向上することが実証された。
関連論文リスト
- GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization [18.271311365080802]
エキスパートの混合(MoE)アーキテクチャは、同等のキャパシティの密度の高いモデルと比較して、トレーニングと推論のコストを著しく削減します。
アップサイクリング(Upcycling)は、トレーニング済みの高密度モデルを使用してMoEモデルを初期化し、トレーニングするアプローチである。
ドロップアップサイクルは、事前訓練された高密度モデルの知識を活用しながら、重量の一部を統計的に再出発させるという、一見矛盾する2つのアプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2025-02-26T16:06:36Z) - Scaling Laws for Upcycling Mixture-of-Experts Language Models [17.796361238003403]
大規模言語モデル(LLM)の事前トレーニングはリソース集約的であり、ハイエンドのGPUクラスタでも数ヶ月のトレーニング時間を必要とすることが多い。
そのような計算要求を緩和する2つのアプローチがある: より小さなモデルを再利用して、より大きなモデルをトレーニングする(アップサイクル)、そして、Mix-of-experts (MoE)のような計算効率の良いモデルを訓練する。
論文 参考訳(メタデータ) (2025-02-05T09:11:13Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。