論文の概要: Understanding and Enforcing Weight Disentanglement in Task Arithmetic
- arxiv url: http://arxiv.org/abs/2604.17078v1
- Date: Sat, 18 Apr 2026 17:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.322213
- Title: Understanding and Enforcing Weight Disentanglement in Task Arithmetic
- Title(参考訳): タスク算術における重みの絡み合いの理解と強制
- Authors: Shangge Liu, Yuehan Yin, Lei Wang, Qi Fan, Yinghuan Shi, Wenbin Li, Yang Gao, Dacheng Tao,
- Abstract要約: 私たちは、異なるタスクに異なる内部機能を割り当てるモデルの機能であるTask-Feature(TFS)を紹介します。
そこで我々はOrthoRegを提案する。OrthoRegはシンプルで効果的な正規化手法で、内部構造を重みに積極的に適用する。
- 参考スコア(独自算出の注目度): 72.17785699918092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task arithmetic provides an efficient, training-free way to edit pre-trained models, yet lacks a fundamental theoretical explanation for its success. The existing concept of ``weight disentanglement" describes the ideal outcome of non-interfering task composition but does not reveal its underlying cause. Crucially, what intrinsic properties of the pre-trained model ($θ_0$) or the task vectors ($τ_t$) enable this disentanglement remains underexplored. In this paper, we introduce Task-Feature Specialization (TFS), a model's ability to allocate distinct internal features to different tasks, as the fundamental principle. We first prove that TFS is a sufficient condition for weight disentanglement. More importantly, we find that TFS also gives rise to an observable geometric consequence: weight vector orthogonality. This positions TFS as the common cause for both the desired functional outcome (disentanglement) and a measurable geometric property (orthogonality). This relationship provides the key insight for our method: since the abstract TFS property is intractable to enforce directly, we can instead promote weight disentanglement by shaping its concrete geometric consequence, orthogonality. Therefore, we propose OrthoReg, a simple and effective regularization method that actively enforces an internal orthogonal structure on weight updates ($ΔW$) that constitute $τ_t$ during fine-tuning. And we theoretically prove that OrthoReg promotes disentanglement. Extensive experiments demonstrate that OrthoReg consistently and significantly enhances the performance of various task arithmetic methods. Code is available at \href{https://github.com/RL-MIND/OrthoReg}{https://github.com/RL-MIND/OrthoReg}.
- Abstract(参考訳): タスク算術は、事前訓練されたモデルを編集するための効率的で訓練のない方法を提供するが、その成功に対する基本的な理論的説明は欠如している。
既存の「重みの絡み合い」の概念は、非干渉的タスク構成の理想的な結果を示すものであるが、その根本原因は明らかになっていない。
重要なことに、事前訓練されたモデル(θ_0$)やタスクベクトル(τ_t$)の固有の性質は、この非絡み合いを過小評価することを可能にしている。
本稿では,タスク・フィーチャー・スペシャライゼーション(TFS, Task-Feature Specialization)を基本原理として,異なるタスクに異なる内部機能を割り当てるモデルの能力を紹介する。
まず、TFSが重みの絡み合うのに十分な条件であることを証明します。
さらに重要なのは、TFSが観測可能な幾何学的結果、すなわち重みベクトル直交をもたらすことだ。
これは TFS を所望の関数結果(アンタングルメント)と測定可能な幾何学的性質(直交性)の両方の共通原因として位置付ける。
抽象TFSプロパティは直接的に強制することができるため、具体的幾何学的結果、直交性を形作ることで重みの絡み合いを促進することができる。
そこで我々はOrthoRegを提案する。OrthoRegは、微調整中に$τ_t$を構成する重量更新(ΔW$)において、内部直交構造を積極的に強制するシンプルで効果的な正規化手法である。
そして、理論上OrthoRegが絡み合いを促進することを証明します。
大規模な実験により、OrthoRegは、様々なタスク演算手法の性能を一貫して、そして大幅に向上させることが示された。
コードは \href{https://github.com/RL-MIND/OrthoReg}{https://github.com/RL-MIND/OrthoReg} で公開されている。
関連論文リスト
- Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation [0.0]
Low-Rank Adaptation (LoRA) は、大規模な事前学習モデルに適応するためのパラメータ効率の高いアプローチとして登場した。
勾配部分空間相互作用のレンズを通して,LoRAにおける破滅的忘れを特徴付ける幾何学的理論を提案する。
論文 参考訳(メタデータ) (2026-02-10T22:45:47Z) - Calibrating and Rotating: A Unified Framework for Weight Conditioning in PEFT [19.773848189002965]
DoRA法は重み更新を大きさと方向に分解することで性能を向上させる。
本研究では,重み更新行列の特異値エントロピーを増大させる能力からDoRAの成功が導かれることを確かめる。
我々は、DoRAを数学的に等価で効率的な行列形式に再構成し、学習可能な重み条件付け法として明らかにした。
論文 参考訳(メタデータ) (2025-10-28T12:52:54Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation [20.47507483613317]
微調整法の代表行は直交微調整(OFT)である。
OFTはパラメータ空間内の角距離を厳格に保存し、事前訓練された知識を保存する。
この問題に対処するため、準ギヴンズ直交微調整(qGOFT)を提案する。
論文 参考訳(メタデータ) (2024-04-05T15:28:44Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Orthogonal SVD Covariance Conditioning and Latent Disentanglement [65.67315418971688]
SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になる。
我々は最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-12-11T20:31:31Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。