論文の概要: Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods
- arxiv url: http://arxiv.org/abs/2506.01901v1
- Date: Mon, 02 Jun 2025 17:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.630448
- Title: Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods
- Title(参考訳): 教師付きファインチューニングにおける過度適応の理解--エンサンブル手法の役割
- Authors: Yifan Hao, Xingyuan Pan, Hanning Zhang, Chenlu Ye, Rui Pan, Tong Zhang,
- Abstract要約: 監視された微調整は、基礎モデルを専門的なタスクに適応するための支配的なアプローチである。
視覚モデルでは、事前訓練されたモデルと微調整されたモデルを組み合わせることでこの問題を軽減することが示されている。
アンサンブルモデルは基礎モデルからの一般的な知識を保持するだけでなく、微調整されたドメイン自体においても、微調整されたモデルよりも優れる。
- 参考スコア(独自算出の注目度): 11.695512384798299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) on domain-specific data is the dominant approach for adapting foundation models to specialized tasks. However, it has been observed that SFT models tend to forget knowledge acquired during pretraining. In vision models, ensembling a pretrained model with its fine-tuned counterpart has been shown to mitigate this issue. In this work, we demonstrate that the same holds for language models, and, more strikingly, we observe an overadaptation phenomenon: the ensemble model not only retains general knowledge from the foundation model but also outperforms the fine-tuned model even on the fine-tuning domain itself. Despite the empirical success of ensembling, a theoretical understanding of its benefits remains underexplored. We develop a formal theoretical analysis of the overadaptation phenomenon. Ensembling mitigates this by balancing two primary sources of error: bias, caused by insufficient fine-tuning, and variance, introduced by overfitting to fine-tuning data. While regularization techniques aim to address this trade-off, we show that ensembling provides a more effective solution. We analyze this phenomenon in over-parameterized linear settings and demonstrate that interpolating between pretrained and fine-tuned weights significantly improves performance. These findings offer theoretical justification for the observed advantages of model ensembling, supported by empirical experiments consistent with our analysis.
- Abstract(参考訳): ドメイン固有データに対する教師付き微調整(SFT)は、基礎モデルを専門的なタスクに適応するための主要なアプローチである。
しかし、SFTモデルは事前訓練中に得られた知識を忘れがちである。
視覚モデルでは、事前訓練されたモデルと微調整されたモデルを組み合わせることでこの問題を軽減することが示されている。
本研究は,言語モデルにも同じことが成り立つことを実証し,さらに顕著に,アンサンブルモデルが基礎モデルからの一般的な知識を保持するだけでなく,微調整ドメイン自体においても,微調整モデルよりも優れる,という過度適応現象を観察する。
アンサンブルの実証的な成功にもかかわらず、その利点に関する理論的理解は未解明のままである。
我々は、過適応現象の形式的理論的解析を開発する。
微調整が不十分なため生じるバイアスと、微調整データへの過度な適合によって引き起こされる分散という、2つの主要なエラー源のバランスをとることで、これを緩和する。
正規化手法は、このトレードオフに対処することを目的としているが、アンサンブルがより効果的なソリューションを提供することを示す。
我々はこの現象を過度にパラメータ化された線形設定で解析し、事前訓練された重みと微調整された重みの補間が性能を著しく向上させることを示した。
これらの結果は,実験により得られたモデルアンサンブルの利点を理論的に正当化するものである。
関連論文リスト
- A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Bias Mitigation in Fine-tuning Pre-trained Models for Enhanced Fairness
and Efficiency [26.86557244460215]
新しいタスクにおけるバイアスを軽減するために特別に設計された、効率的で堅牢な微調整フレームワークを導入します。
我々の経験的分析は、異なる人口集団の予測に影響を与える事前学習モデルのパラメータが異なることを示している。
我々は、人口集団間でフィッシャー情報を用いて決定された、これらの影響力のある重みの重要性を中和する伝達学習戦略を採用している。
論文 参考訳(メタデータ) (2024-03-01T16:01:28Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。