論文の概要: Knowledge Composition using Task Vectors with Learned Anisotropic Scaling
- arxiv url: http://arxiv.org/abs/2407.02880v2
- Date: Tue, 29 Oct 2024 05:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:06.889785
- Title: Knowledge Composition using Task Vectors with Learned Anisotropic Scaling
- Title(参考訳): 学習した異方性スケーリングを用いたタスクベクトルを用いた知識構成
- Authors: Frederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad,
- Abstract要約: 本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 51.4661186662329
- License:
- Abstract: Pre-trained models produce strong generic representations that can be adapted via fine-tuning. The learned weight difference relative to the pre-trained model, known as a task vector, characterises the direction and stride of fine-tuning. The significance of task vectors is such that simple arithmetic operations on them can be used to combine diverse representations from different domains. This paper builds on these properties of task vectors and aims to answer (1) whether components of task vectors, particularly parameter blocks, exhibit similar characteristics, and (2) how such blocks can be used to enhance knowledge composition and transfer. To this end, we introduce aTLAS, an algorithm that linearly combines parameter blocks with different learned coefficients, resulting in anisotropic scaling at the task vector level. We show that such linear combinations explicitly exploit the low intrinsic dimensionality of pre-trained models, with only a few coefficients being the learnable parameters. Furthermore, composition of parameter blocks leverages the already learned representations, thereby reducing the dependency on large amounts of data. We demonstrate the effectiveness of our method in task arithmetic, few-shot recognition and test-time adaptation, with supervised or unsupervised objectives. In particular, we show that (1) learned anisotropic scaling allows task vectors to be more disentangled, causing less interference in composition; (2) task vector composition excels with scarce or no labeled data and is less prone to domain shift, thus leading to better generalisability; (3) mixing the most informative parameter blocks across different task vectors prior to training can reduce the memory footprint and improve the flexibility of knowledge transfer. Moreover, we show the potential of aTLAS as a PEFT method, particularly with less data, and demonstrate its scalibility.
- Abstract(参考訳): 事前訓練されたモデルは、微調整によって適応できる強力な汎用表現を生成する。
タスクベクトルとして知られる事前訓練されたモデルに対する学習重量差は、微調整の方向と歩みを特徴づける。
タスクベクトルの重要さは、それらの上の単純な算術演算が、異なる領域からの多様な表現を組み合わせるのに使用できることである。
本稿では,タスクベクトルの特性を基盤として,(1)タスクベクトル,特にパラメータブロックの構成要素が類似した特性を示すかどうか,(2)知識合成と伝達の強化にどのように使用できるのかを問う。
この目的のために,パラメータブロックと異なる学習係数を線形に結合するアルゴリズムであるaTLASを導入し,タスクベクトルレベルでの異方性スケーリングを実現する。
このような線形結合は事前学習されたモデルの低内在次元を明示的に利用し、学習可能なパラメータは数係数のみであることを示す。
さらに、パラメータブロックの構成は、既に学んだ表現を活用し、大量のデータへの依存を減らす。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
特に,(1)学習した異方性スケーリングは,タスクベクトルの絡み合いを緩和し,構成の干渉を少なくし,(2)ラベル付きデータが少なく,ドメインシフトの少ないタスクベクトル合成により,一般化性が向上すること,(3)学習前のタスクベクトル間で最も情報性の高いパラメータブロックを混合することにより,メモリフットプリントを低減し,知識伝達の柔軟性を向上させること,などが示されている。
さらに、PEFT法として、特に少ないデータでaTLASの可能性を示し、その可視性を示す。
関連論文リスト
- CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - Scalable variable selection for two-view learning tasks with projection
operators [0.0]
本稿では,2視点設定やベクトル値による教師付き学習問題に対して,新しい変数選択法を提案する。
当社のフレームワークは,データサンプルの数が数百万にものぼる,非常に大規模な選択タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-04T08:22:05Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - An Advance on Variable Elimination with Applications to Tensor-Based
Computation [11.358487655918676]
本稿では,確率的推論を含む多くのアルゴリズムの基盤となる可変除去の古典的アルゴリズムについて述べる。
結果は機能的依存関係の活用に関連しており、非常に大きなツリー幅を持つモデルで推論と学習を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-02-21T14:17:44Z) - Graph-based Interpolation of Feature Vectors for Accurate Few-Shot
Classification [2.922007656878633]
少数の分類では、少数のラベル付き例だけでクラスを識別できるモデルを学ぶことが目的である。
代わりに特徴ベクトルを補間するためにのみグラフに依存する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-01-27T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。