論文の概要: Grow, Don't Overwrite: Fine-tuning Without Forgetting
- arxiv url: http://arxiv.org/abs/2603.08647v1
- Date: Mon, 09 Mar 2026 17:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.601936
- Title: Grow, Don't Overwrite: Fine-tuning Without Forgetting
- Title(参考訳): 成長する、上書きしない:忘れずに微調整する
- Authors: Dyah Adila, Hanna Mazzawi, Benoit Dherin, Xavier Gonzalvo,
- Abstract要約: 訓練済みのモデルを専門的なタスクに適合させると、大惨事に陥ることが多い。
既存の方法は、新しいタスクのパフォーマンスを損なうか、トレーニングの安定性と事前訓練された知識の効率的な再利用のバランスをとるのに苦労する。
本稿では,このジレンマを解消する関数保存拡張法を提案する。
- 参考スコア(独自算出の注目度): 8.51968450061047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting pre-trained models to specialized tasks often leads to catastrophic forgetting, where new knowledge overwrites foundational capabilities. Existing methods either compromise performance on the new task or struggle to balance training stability with efficient reuse of pre-trained knowledge. We introduce a novel function-preserving expansion method that resolves this dilemma. Our technique expands model capacity by replicating pre-trained parameters within transformer submodules and applying a scaling correction that guarantees the expanded model is mathematically identical to the original at initialization, enabling stable training while exploiting existing knowledge. Empirically, our method eliminates the trade-off between plasticity and stability, matching the performance of full fine-tuning on downstream tasks without any degradation of the model's original capabilities. Furthermore, we demonstrate the modularity of our approach, showing that by selectively expanding a small subset of layers we can achieve the same performance as full fine-tuning at a fraction of the computational cost.
- Abstract(参考訳): 訓練済みのモデルを専門的なタスクに適用すると、しばしば破滅的な忘れがちになり、そこでは新たな知識が基礎的能力を上書きする。
既存の方法は、新しいタスクのパフォーマンスを損なうか、トレーニングの安定性と事前訓練された知識の効率的な再利用のバランスをとるのに苦労する。
本稿では,このジレンマを解消する関数保存拡張法を提案する。
本手法は, 変圧器サブモジュール内の事前学習パラメータを複製し, 拡張モデルが初期化時と数学的に同一であることを保証したスケーリング補正を適用し, 既存の知識を活用しながら, 安定した訓練を可能にすることによって, モデル容量を拡大する。
実験により,本手法は可塑性と安定性のトレードオフを解消し,モデル本来の性能を損なうことなく,下流タスクの完全微調整性能を満足する。
さらに,本手法のモジュラリティを実証し,少数の層を選択的に拡張することにより,計算コストのごく一部で完全な微調整を実現できることを示した。
関連論文リスト
- Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - Neural Networks Remember More: The Power of Parameter Isolation and Combination [3.2430260063115233]
破滅的な忘れは、事前訓練された言語モデルにとって広範囲にわたる問題である。
この問題を解決するための鍵は、モデルの可塑性と安定性の間のトレードオフを見つけることである。
モデル安定性と塑性のバランスをとるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-16T02:58:57Z) - Large Language Models to Diffusion Finetuning [20.251827725749607]
我々は、下流タスク間の性能向上に直接変換することで、単調に精度を向上することを示す。
本手法は,クロスエントロピー損失で事前学習した基礎モデルに適用可能である。
論文 参考訳(メタデータ) (2025-01-27T04:59:29Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。