論文の概要: Don't Throw Away Your Pretrained Model
- arxiv url: http://arxiv.org/abs/2510.09913v1
- Date: Fri, 10 Oct 2025 23:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.689372
- Title: Don't Throw Away Your Pretrained Model
- Title(参考訳): 事前訓練されたモデルに手を出すな
- Authors: Shangbin Feng, Wenhao Yu, Yike Wang, Hongming Zhang, Yulia Tsvetkov, Dong Yu,
- Abstract要約: 私たちは、モデルコラボレーションを通じて両方の世界を最大限に活用することを目指しています。
そこで我々は,事前訓練されたモデルバージョンが,応答シーケンスで「話し方」を交互に行うスイッチ生成を提案する。
- 参考スコア(独自算出の注目度): 68.63558351111303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment training has tradeoffs: it helps language models (LMs) gain in reasoning and instruction following but might lose out on skills such as creativity and calibration, where unaligned base models are better at. We aim to make the best of both worlds through model collaboration, where different models in the training pipeline collaborate and complement each other. Since LM responses feature interleaving skills that favor different models, we propose Switch Generation, where pretrained and aligned model versions take turns to ``speak'' in a response sequence. Specifically, we train a switcher LM by learning from outcomes of choosing different models to generate the next segment across diverse queries and contexts. At inference time, the switcher LM guides different model checkpoints to dynamically generate the next segment where their strengths are most needed. Extensive experiments with 8 model collaboration baselines and 18 datasets show that 1) model collaboration consistently outperforms individual models on 16 out of 18 tasks, and 2) Switch Generation further outperforms baselines by 12.9% on average. Further analysis reveals that Switch Generation discovers compositional skills to solve problems where individual models struggle and generalizes to unseen models and tasks, reusing and repurposing by-products in expensive model training pipelines that are otherwise discarded.
- Abstract(参考訳): 言語モデル(LM)は推論や指示に従うのに役立ち、創造性やキャリブレーションといったスキルに負ける可能性がある。
トレーニングパイプライン内のさまざまなモデルが協力し、相互に補完するモデルコラボレーションを通じて、両方の世界を最大限に活用することを目指しています。
LM応答は、異なるモデルを好むインターリーブスキルを特徴とするので、事前訓練されたモデルバージョンとアライメントされたモデルバージョンが応答シーケンスで 'speak'' に切り替わるスイッチ生成を提案する。
具体的には、異なるモデルを選択する結果から学習し、様々なクエリやコンテキストにまたがる次のセグメントを生成することで、スイッチタLMを訓練する。
推測時に、スイッチタLMは、異なるモデルチェックポイントをガイドして、その強度が最も必要となる次のセグメントを動的に生成する。
8つのモデルコラボレーションベースラインと18のデータセットによる大規模な実験
1)モデルコラボレーションは18タスク中16タスクにおいて、個々のモデルを一貫して上回ります。
2)スイッチ生成は、ベースラインを平均で12.9%上回る。
さらなる分析によると、Switch Generationは、個々のモデルが苦労し、目に見えないモデルやタスクに一般化する問題を解決するための構成スキルを発見し、高価なモデルトレーニングパイプラインで副産物を再利用し、再利用する。
関連論文リスト
- J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。