論文の概要: When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers
- arxiv url: http://arxiv.org/abs/2504.10957v1
- Date: Tue, 15 Apr 2025 08:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:18.239288
- Title: When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers
- Title(参考訳): タスクベクトルはいつモデル編集に有効か?非線形変圧器の一般化解析
- Authors: Hongkang Li, Yihua Zhang, Shuai Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen,
- Abstract要約: タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
- 参考スコア(独自算出の注目度): 64.1656365676171
- License:
- Abstract: Task arithmetic refers to editing the pre-trained model by adding a weighted sum of task vectors, each of which is the weight update from the pre-trained model to fine-tuned models for certain tasks. This approach recently gained attention as a computationally efficient inference method for model editing, e.g., multi-task learning, forgetting, and out-of-domain generalization capabilities. However, the theoretical understanding of why task vectors can execute various conceptual operations remains limited, due to the highly non-convexity of training Transformer-based models. To the best of our knowledge, this paper provides the first theoretical characterization of the generalization guarantees of task vector methods on nonlinear Transformers. We consider a conceptual learning setting, where each task is a binary classification problem based on a discriminative pattern. We theoretically prove the effectiveness of task addition in simultaneously learning a set of irrelevant or aligned tasks, as well as the success of task negation in unlearning one task from irrelevant or contradictory tasks. Moreover, we prove the proper selection of linear coefficients for task arithmetic to achieve guaranteed generalization to out-of-domain tasks. All of our theoretical results hold for both dense-weight parameters and their low-rank approximations. Although established in a conceptual setting, our theoretical findings were validated on a practical machine unlearning task using the large language model Phi-1.5 (1.3B).
- Abstract(参考訳): タスク算術は、事前訓練されたモデルから特定のタスクのための微調整されたモデルへの重み付けされたタスクベクトルの和を追加することで、事前訓練されたモデルを編集することを指す。
このアプローチは、最近、モデル編集、例えばマルチタスク学習、忘れ、ドメイン外一般化機能のための計算効率の良い推論手法として注目されている。
しかしながら、タスクベクトルが様々な概念的操作を実行できる理由に関する理論的理解は、トランスフォーマーベースのモデルのトレーニングの非凸性のため、依然として限られている。
そこで本研究では,非線形変換器上でのタスクベクトル法の一般化保証について,まず理論的評価を行った。
本稿では,各タスクが識別パターンに基づく二項分類問題である概念学習環境について考察する。
理論的には,無関係タスクや整列タスクのセットを同時に学習する上でのタスク追加の有効性と,無関係タスクから無関係タスクを学習するタスク否定の成功を理論的に証明する。
さらに,タスク算術における線形係数の適切な選択を証明し,領域外タスクへの保証された一般化を実現する。
我々の理論結果は、重み付けパラメータとそれらの低ランク近似の両方に当てはまる。
概念的には確立されたものの,Phi-1.5 (1.3B) という大言語モデルを用いて,実践的な非学習課題について理論的に検証した。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Efficient Model Editing with Task Vector Bases: A Theoretical Framework and Scalable Approach [27.395660760819133]
異なる目的のために、保存されたタスクベクトルを演算で操作するのは簡単だが、構成の柔軟性は高いメモリ使用量を必要とする。
この研究は、これらの問題に、タスクベクトル演算を説明し、タスクベクトルベースフレームワークを導入する理論的に基礎付けられたフレームワークで対処する。
提案手法は,競合性能を実現し,構成上の優位性を維持しつつ,ダウンストリーム演算のメモリコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-03T03:18:26Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Task Arithmetic Through The Lens Of One-Shot Federated Learning [3.8230727103887943]
Task Arithmeticは、複数のモデルの機能をひとつのモデルに組み合わせることを可能にするモデルマージ技術である。
タスク算術は、フェデレートラーニングにおいてよく使われるアルゴリズムと数学的に等価であることを示す。
フェデレーテッド・ラーニング(Federated Learning)のアルゴリズムを応用して,タスク算術の有効性を向上する。
論文 参考訳(メタデータ) (2024-11-27T18:53:41Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。