論文の概要: Efficient Model Editing with Task Vector Bases: A Theoretical Framework and Scalable Approach
- arxiv url: http://arxiv.org/abs/2502.01015v1
- Date: Mon, 03 Feb 2025 03:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:04.849868
- Title: Efficient Model Editing with Task Vector Bases: A Theoretical Framework and Scalable Approach
- Title(参考訳): タスクベクトルベースを用いた効率的なモデル編集:理論的枠組みとスケーラブルなアプローチ
- Authors: Siqi Zeng, Yifei He, Weiqiu You, Yifan Hao, Yao-Hung Hubert Tsai, Makoto Yamada, Han Zhao,
- Abstract要約: 異なる目的のために、保存されたタスクベクトルを演算で操作するのは簡単だが、構成の柔軟性は高いメモリ使用量を必要とする。
この研究は、これらの問題に、タスクベクトル演算を説明し、タスクベクトルベースフレームワークを導入する理論的に基礎付けられたフレームワークで対処する。
提案手法は,競合性能を実現し,構成上の優位性を維持しつつ,ダウンストリーム演算のメモリコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 27.395660760819133
- License:
- Abstract: Task vectors, which are derived from the difference between pre-trained and fine-tuned model weights, enable flexible task adaptation and model merging through arithmetic operations such as addition and negation. However, existing approaches often rely on heuristics with limited theoretical support, often leading to performance gaps comparing to direct task fine tuning. Meanwhile, although it is easy to manipulate saved task vectors with arithmetic for different purposes, such compositional flexibility demands high memory usage, especially when dealing with a huge number of tasks, limiting scalability. This work addresses these issues with a theoretically grounded framework that explains task vector arithmetic and introduces the task vector bases framework. Building upon existing task arithmetic literature, our method significantly reduces the memory cost for downstream arithmetic with little effort, while achieving competitive performance and maintaining compositional advantage, providing a practical solution for large-scale task arithmetic.
- Abstract(参考訳): タスクベクトルは、事前訓練されたモデルウェイトと微調整されたモデルウェイトの違いから導かれるもので、フレキシブルなタスク適応と加算や否定といった算術演算によるモデルマージを可能にする。
しかし、既存のアプローチは理論的なサポートが限られているヒューリスティックに頼り、直接タスクの微調整と比較してパフォーマンスのギャップが生じることが多い。
一方、保存されたタスクベクトルを異なる目的のために算術演算で操作するのは簡単だが、このような構成の柔軟性は、特に膨大なタスクを扱う場合、高いメモリ使用量を必要とする。
この研究は、これらの問題に、タスクベクトル演算を説明し、タスクベクトルベースフレームワークを導入する理論的に基礎付けられたフレームワークで対処する。
提案手法は,既存のタスク演算文学に基づいて,競争性能と構成上の優位性を保ちながら,ダウンストリーム演算のメモリコストを大幅に削減し,大規模タスク演算の実用的なソリューションを提供する。
関連論文リスト
- Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Task Arithmetic Through The Lens Of One-Shot Federated Learning [3.8230727103887943]
Task Arithmeticは、複数のモデルの機能をひとつのモデルに組み合わせることを可能にするモデルマージ技術である。
タスク算術は、フェデレートラーニングにおいてよく使われるアルゴリズムと数学的に等価であることを示す。
フェデレーテッド・ラーニング(Federated Learning)のアルゴリズムを応用して,タスク算術の有効性を向上する。
論文 参考訳(メタデータ) (2024-11-27T18:53:41Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。