論文の概要: AdaFish: Fast low-rank parameter-efficient fine-tuning by using second-order information
- arxiv url: http://arxiv.org/abs/2403.13128v1
- Date: Tue, 19 Mar 2024 19:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:47:08.624015
- Title: AdaFish: Fast low-rank parameter-efficient fine-tuning by using second-order information
- Title(参考訳): AdaFish: 2次情報を用いた高速低ランクパラメータ効率微調整
- Authors: Jiang Hu, Quanzheng Li,
- Abstract要約: AdaFishは、低ランク分解に基づく微調整フレームワークにおいて、トレーニングプロセスを高速化するために設計された2次型の効率的なアルゴリズムである。
我々のキーとなる観察は、関連する一般化されたフィッシャー情報行列が低ランクか極小スケールであることである。
我々のアルゴリズムは最先端のAdamW法と非常に競合する。
- 参考スコア(独自算出の注目度): 9.783866286290106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large-scale pretrained models have significantly improved performance across a variety of tasks in natural language processing and computer vision. However, the extensive number of parameters in these models necessitates substantial memory and computational resources for full training. To adapt these models for downstream tasks or specific application-oriented datasets, parameter-efficient fine-tuning methods leveraging pretrained parameters have gained considerable attention. However, it can still be time-consuming due to lots of parameters and epochs. In this work, we introduce AdaFish, an efficient algorithm of the second-order type designed to expedite the training process within low-rank decomposition-based fine-tuning frameworks. Our key observation is that the associated generalized Fisher information matrix is either low-rank or extremely small-scaled. Such a generalized Fisher information matrix is shown to be equivalent to the Hessian matrix. Moreover, we prove the global convergence of AdaFish, along with its iteration/oracle complexity. Numerical experiments show that our algorithm is quite competitive with the state-of-the-art AdamW method.
- Abstract(参考訳): 大規模事前学習モデルの最近の進歩は、自然言語処理やコンピュータビジョンにおける様々なタスクにおける性能を著しく向上させてきた。
しかし、これらのモデルの膨大な数のパラメータは、完全なトレーニングのためにかなりのメモリと計算資源を必要とする。
これらのモデルを下流タスクや特定のアプリケーション指向データセットに適用するために、事前訓練されたパラメータを利用するパラメータ効率の高い微調整手法が注目されている。
しかし、多くのパラメータやエポックのため、依然として時間がかかります。
本研究では,低ランク分解に基づく微調整フレームワークにおいて,学習プロセスを高速化するために設計された2次型の効率的なアルゴリズムであるAdaFishを紹介する。
我々のキーとなる観察は、関連する一般化されたフィッシャー情報行列が低ランクか極小スケールであることである。
このような一般化されたフィッシャー情報行列はヘッセン行列と同値であることが示される。
さらに、AdaFishのグローバル収束と、そのイテレーション/オークルの複雑さを証明します。
数値実験により,本アルゴリズムは最先端のAdamW法と非常に競合することを示した。
関連論文リスト
- NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。
広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。
NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - Adaptive Optimization Algorithms for Machine Learning [0.0]
機械学習は、データ駆動の世界において重要な役割を担います。
この論文は、新しい洞察をもたらし、収束保証を改善した新しいアルゴリズムを導入し、人気のある実用的なアルゴリズムの分析を改善する。
論文 参考訳(メタデータ) (2023-11-16T21:22:47Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - On the Trend-corrected Variant of Adaptive Stochastic Optimization
Methods [30.084554989542475]
本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。
我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。
論文 参考訳(メタデータ) (2020-01-17T01:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。