論文の概要: Efficient Model Editing with Task Vector Bases: A Theoretical Framework and Scalable Approach
- arxiv url: http://arxiv.org/abs/2502.01015v1
- Date: Mon, 03 Feb 2025 03:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:04.849868
- Title: Efficient Model Editing with Task Vector Bases: A Theoretical Framework and Scalable Approach
- Title(参考訳): タスクベクトルベースを用いた効率的なモデル編集:理論的枠組みとスケーラブルなアプローチ
- Authors: Siqi Zeng, Yifei He, Weiqiu You, Yifan Hao, Yao-Hung Hubert Tsai, Makoto Yamada, Han Zhao,
- Abstract要約: 異なる目的のために、保存されたタスクベクトルを演算で操作するのは簡単だが、構成の柔軟性は高いメモリ使用量を必要とする。
この研究は、これらの問題に、タスクベクトル演算を説明し、タスクベクトルベースフレームワークを導入する理論的に基礎付けられたフレームワークで対処する。
提案手法は,競合性能を実現し,構成上の優位性を維持しつつ,ダウンストリーム演算のメモリコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 27.395660760819133
- License:
- Abstract: Task vectors, which are derived from the difference between pre-trained and fine-tuned model weights, enable flexible task adaptation and model merging through arithmetic operations such as addition and negation. However, existing approaches often rely on heuristics with limited theoretical support, often leading to performance gaps comparing to direct task fine tuning. Meanwhile, although it is easy to manipulate saved task vectors with arithmetic for different purposes, such compositional flexibility demands high memory usage, especially when dealing with a huge number of tasks, limiting scalability. This work addresses these issues with a theoretically grounded framework that explains task vector arithmetic and introduces the task vector bases framework. Building upon existing task arithmetic literature, our method significantly reduces the memory cost for downstream arithmetic with little effort, while achieving competitive performance and maintaining compositional advantage, providing a practical solution for large-scale task arithmetic.
- Abstract(参考訳): タスクベクトルは、事前訓練されたモデルウェイトと微調整されたモデルウェイトの違いから導かれるもので、フレキシブルなタスク適応と加算や否定といった算術演算によるモデルマージを可能にする。
しかし、既存のアプローチは理論的なサポートが限られているヒューリスティックに頼り、直接タスクの微調整と比較してパフォーマンスのギャップが生じることが多い。
一方、保存されたタスクベクトルを異なる目的のために算術演算で操作するのは簡単だが、このような構成の柔軟性は、特に膨大なタスクを扱う場合、高いメモリ使用量を必要とする。
この研究は、これらの問題に、タスクベクトル演算を説明し、タスクベクトルベースフレームワークを導入する理論的に基礎付けられたフレームワークで対処する。
提案手法は,既存のタスク演算文学に基づいて,競争性能と構成上の優位性を保ちながら,ダウンストリーム演算のメモリコストを大幅に削減し,大規模タスク演算の実用的なソリューションを提供する。
関連論文リスト
- Task Weighting through Gradient Projection for Multitask Learning [5.5967570276373655]
マルチタスク学習では、タスク勾配間の衝突は、モデルのトレーニングパフォーマンスを劣化させる頻繁な問題である。
本研究では,タスク優先順位付けを同時に行うために,グラディエント・プロジェクション・アルゴリズムであるPCGradを適用する手法を提案する。
従来のタスクの重み付けとは違い、重み付け方式は、タスクが矛盾している場合にのみ適用されるが、トレーニングを妨げない場合にのみ適用される。
論文 参考訳(メタデータ) (2024-09-03T11:17:44Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Quantified Task Misalignment to Inform PEFT: An Exploration of Domain
Generalization and Catastrophic Forgetting in CLIP [7.550566004119157]
CLIPモデルにおけるタスクの難易度とパラメータ効率の単純な微調整手法の性能の関係を解析する。
注意重みのサブセットのみを訓練する手法は、A-CLIPと呼ばれ、領域一般化と破滅的忘れのバランスをとる。
論文 参考訳(メタデータ) (2024-02-14T23:01:03Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。