論文の概要: Mashup Learning: Faster Finetuning by Remixing Past Checkpoints
- arxiv url: http://arxiv.org/abs/2603.10156v1
- Date: Tue, 10 Mar 2026 18:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.657331
- Title: Mashup Learning: Faster Finetuning by Remixing Past Checkpoints
- Title(参考訳): マッシュアップ学習:過去のチェックポイントのリミックスによるファインタニングの高速化
- Authors: Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin,
- Abstract要約: マッシュアップ学習は、新しいタスクへのモデル適応を強化するために、事前トレーニングの実行のアウトプットを活用する単純な方法である。
トレーニングをスクラッチから行うよりも、平均下流の精度を0.5~5ポイント向上させる。
また、コンバージェンスを加速し、トレーニングステップを41-46%削減し、スクラッチの精度に合わせるために壁時計全体の時間を最大37%短縮する。
- 参考スコア(独自算出の注目度): 11.36221733394798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning on domain-specific data is a well-established method for enhancing LLM performance on downstream tasks. Training on each dataset produces a new set of model weights, resulting in a multitude of checkpoints saved in-house or on open-source platforms. However, these training artifacts are rarely reused for subsequent experiments despite containing improved model abilities for potentially similar tasks. In this paper, we propose Mashup Learning, a simple method to leverage the outputs of prior training runs to enhance model adaptation to new tasks. Our procedure identifies the most relevant historical checkpoints for a target dataset, aggregates them with model merging, and uses the result as an improved initialization for training. Across 8 standard LLM benchmarks, four models, and two collections of source checkpoints, Mashup Learning consistently improves average downstream accuracy by 0.5-5 percentage points over training from scratch. It also accelerates convergence, requiring 41-46% fewer training steps and up to 37% less total wall-clock time to match from-scratch accuracy, including all selection and merging overhead.
- Abstract(参考訳): ドメイン固有データの微調整は、下流タスクにおけるLLM性能を向上させるための確立された方法である。
各データセットのトレーニングでは、新たなモデルウェイトが生成され、多数のチェックポイントが社内あるいはオープンソースプラットフォームに保存される。
しかしながら、これらのトレーニングアーティファクトは、潜在的に類似したタスクのためのモデル能力の改善を含むにもかかわらず、その後の実験のために再利用されることは滅多にない。
本稿では,モデル適応性を高めるために,事前学習の成果を簡易に活用するマッシュアップ学習を提案する。
提案手法は,対象データセットの最も関連性の高い履歴チェックポイントを特定し,それらをモデルマージで集約し,その結果をトレーニングの初期化の改善として利用する。
8つの標準LCMベンチマーク、4つのモデル、2つのソースチェックポイントのコレクションにおいて、Mashup Learningは、スクラッチからのトレーニングよりも平均ダウンストリーム精度を0.5-5ポイント改善している。
また、コンバージェンスを加速し、トレーニングステップを41-46%削減し、すべての選択とマージオーバーヘッドを含む、スクラッチの精度に合わせるために壁時計全体の時間を最大37%短縮する。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - NLU on Data Diets: Dynamic Data Subset Selection for NLP Classification
Tasks [0.0]
大きな言語モデルを微調整することは、NLUアプリケーションのコストを膨らませる。
コンピュータビジョンにおける最近の研究は、トレーニング時間を短縮するためにデータプルーニングを使用している。
微調整中に重要でない例を定期的に採点・廃棄するカリキュラムを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:30:41Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。