論文の概要: Distilling Linearized Behavior into Non-Linear Fine-Tuning for Effective Task Arithmetic
- arxiv url: http://arxiv.org/abs/2605.18993v2
- Date: Fri, 22 May 2026 10:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.691582
- Title: Distilling Linearized Behavior into Non-Linear Fine-Tuning for Effective Task Arithmetic
- Title(参考訳): 効果的なタスク算術のための非線形ファインチューニングにおける線形化挙動の蒸留
- Authors: Thomas Sommariva, Francesca Morandi, Simone Calderara, Angelo Porrello,
- Abstract要約: 線形と標準非線形微調整のギャップを埋める。
曲率規則化された線形化教師の隠れ表現を,従来の微調整で訓練した非線形の学生に蒸留する。
その結果, 線形化モデルの重要な特性をタスク演算に継承し, タスクベクトルの効率的な構成を実現し, 推論時間オーバーヘッドを発生させることなく, 視覚および言語ベンチマーク間での強い性能を実現することができた。
- 参考スコア(独自算出の注目度): 17.222346684974607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task vector composition has emerged as a promising paradigm for editing pre-trained models, enabling model merging through addition and unlearning through subtraction. Fine-tuning in the tangent space of a pre-trained model (linear fine-tuning) has proven effective, as it produces task vectors that are naturally disentangled and resistant to interference. However, linearized models suffer from limited expressivity during training and incur higher computational costs at inference time, which restrict their practical applicability. In this work, we bridge the gap between linear and standard non-linear fine-tuning. We show that linearity with respect to weight perturbations, a property defined in parameter space, can be enforced through constraints in activation space during training. Concretely, we distill hidden representations from a curvature-regularized linearized teacher into a non-linear student trained via conventional fine-tuning. We find that the resulting model inherits key properties of linearized models for task arithmetic, enabling effective composition of task vectors and achieving strong performance across vision and language benchmarks without incurring any inference-time overhead.
- Abstract(参考訳): タスクベクトル合成は、事前訓練されたモデルを編集するための有望なパラダイムとして登場し、追加とサブトラクションによる非学習によるモデルマージを可能にした。
事前訓練されたモデル(線形微調整)の接空間での微調整は、自然に非絡み合い、干渉に抵抗するタスクベクトルを生成するため、有効であることが証明されている。
しかし、線形化モデルは、訓練中に限られた表現性に悩まされ、推論時に高い計算コストを発生させ、実用性を制限する。
本研究では、線形と標準非線形微調整のギャップを埋める。
パラメータ空間で定義された特性である重み摂動に対する線形性は、トレーニング中に活性化空間の制約によって強制できることを示す。
具体的には、曲率規則化された線形化教師の隠れ表現を、従来の微調整で訓練された非線形の学生に蒸留する。
その結果, 線形化モデルの重要な特性をタスク演算に継承し, タスクベクトルの効率的な構成を実現し, 推論時間オーバーヘッドを発生させることなく, 視覚および言語ベンチマーク間での強い性能を実現することができた。
関連論文リスト
- When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文 参考訳(メタデータ) (2025-04-15T08:04:39Z) - Efficient Model Editing with Task-Localized Sparse Fine-tuning [14.792099973449794]
そこで本稿では,明示的な線形化を必要とせず,最小限の干渉でスパースタスクベクトルを構築できるTaLoSを提案する。
事前学習されたモデルには、タスク間の勾配感度が一貫して低いパラメータのサブセットが含まれていることがわかった。
実験により,TaLoSは,タスクの追加や否定において,現在の手法より優れている一方で,トレーニングと推論の効率が向上することが証明された。
論文 参考訳(メタデータ) (2025-04-03T14:20:06Z) - Fine-Tuning Attention Modules Only: Enhancing Weight Disentanglement in Task Arithmetic [11.142414096809734]
近年,タスク算術が注目を集めている。
このアプローチは、様々なタスクの微調整された重みを統一されたモデルに組み合わせることで、事前訓練されたモデルを直接重量空間で編集する。
このような統一されたモデルを個々のタスクに適用することは、他のタスクからの干渉につながる(重みの絡み合いの欠如)。
論文 参考訳(メタデータ) (2024-07-09T17:59:17Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。