論文の概要: ColA: Collaborative Adaptation with Gradient Learning
- arxiv url: http://arxiv.org/abs/2404.13844v1
- Date: Mon, 22 Apr 2024 02:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:26:21.411759
- Title: ColA: Collaborative Adaptation with Gradient Learning
- Title(参考訳): ColA: グラディエントラーニングによる協調的適応
- Authors: Enmao Diao, Qi Le, Suya Wu, Xinran Wang, Ali Anwar, Jie Ding, Vahid Tarokh,
- Abstract要約: グラディエントラーニング(GL)を用いた協調適応(ColA)を導入する。
ColAはパラメータフリーでモデルに依存しない微調整アプローチであり、勾配パラメータと隠れ表現の計算を分離する。
各種ベンチマークにおいて既存のPEFT法と比較して,ColAが同等以上の性能を発揮することを実験的に実証した。
- 参考スコア(独自算出の注目度): 33.493103874633675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A primary function of back-propagation is to compute both the gradient of hidden representations and parameters for optimization with gradient descent. Training large models requires high computational costs due to their vast parameter sizes. While Parameter-Efficient Fine-Tuning (PEFT) methods aim to train smaller auxiliary models to save computational space, they still present computational overheads, especially in Fine-Tuning as a Service (FTaaS) for numerous users. We introduce Collaborative Adaptation (ColA) with Gradient Learning (GL), a parameter-free, model-agnostic fine-tuning approach that decouples the computation of the gradient of hidden representations and parameters. In comparison to PEFT methods, ColA facilitates more cost-effective FTaaS by offloading the computation of the gradient to low-cost devices. We also provide a theoretical analysis of ColA and experimentally demonstrate that ColA can perform on par or better than existing PEFT methods on various benchmarks.
- Abstract(参考訳): バックプロパゲーションの主要な機能は、隠れ表現の勾配と、勾配降下を伴う最適化のためのパラメータの両方を計算することである。
大規模モデルのトレーニングには,パラメータサイズが大きいため,高い計算コストが必要となる。
パラメータ効率の良いファインチューニング(PEFT)手法は、小さな補助モデルを訓練して計算スペースを節約することを目的としているが、特にFTaaS(Final-Tuning as a Service)では、計算オーバーヘッドが残っている。
パラメータフリーでモデルに依存しない微調整手法であるグラディエント・ラーニング(GL)を用いたColA(Colaborative Adaptation)を導入し、隠れ表現とパラメータの勾配の計算を分離する。
PEFT法と比較して、ColAは低コストデバイスに勾配の計算をオフロードすることで、よりコスト効率の良いFTaaSを容易にする。
また、ColAの理論的解析を行い、様々なベンチマークで既存のPEFT法よりもColAが同等以上の性能を発揮することを実験的に示す。
関連論文リスト
- FGP: Feature-Gradient-Prune for Efficient Convolutional Layer Pruning [16.91552023598741]
本稿では,FGP (Feature-Gradient Pruning) と呼ばれる新しいプルーニング手法を提案する。
特徴に基づく情報と勾配に基づく情報を統合し、様々なターゲットクラスにおけるチャネルの重要性をより効果的に評価する。
複数のタスクやデータセットにまたがる実験により、FGPは計算コストを大幅に削減し、精度損失を最小化することが示された。
論文 参考訳(メタデータ) (2024-11-19T08:42:15Z) - FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:16:12Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Stochastic Gradient Descent with Preconditioned Polyak Step-size [1.3300175008796402]
Gradient Descent with Polyak Step-size (SPS)は、データセットの学習率を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson'sやAda'sなどのプレコンディショニング技術を用いたSPSの拡張を提案する。
論文 参考訳(メタデータ) (2023-10-03T14:36:05Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence [30.393999722555154]
本稿では,古典的ポリアクステップサイズ (Polyak, 1987) の亜次法でよく用いられる変種を提案する。
The proposed Polyak step-size (SPS) is a attractive choice for set the learning rate for gradient descent。
論文 参考訳(メタデータ) (2020-02-24T20:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。