論文の概要: An Efficient Row-Based Sparse Fine-Tuning
- arxiv url: http://arxiv.org/abs/2502.11439v1
- Date: Mon, 17 Feb 2025 04:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:58.250906
- Title: An Efficient Row-Based Sparse Fine-Tuning
- Title(参考訳): 効率的なローベーススパースファインチューニング
- Authors: Cen-Jhih Li, Aditya Bhaskara,
- Abstract要約: ニューラルネットワークプルーニングのアイデアに基づく新しいSFTフレームワークを開発した。
本研究では,SFTのメモリ効率をトレーニング時間の複雑さを増大させることなく向上させることが実証された。
- 参考スコア(独自算出の注目度): 9.208007322096535
- License:
- Abstract: Fine-tuning is an important step in adapting foundation models such as large language models to downstream tasks. To make this step more accessible to users with limited computational budgets, it is crucial to develop fine-tuning methods that are memory and computationally efficient. Sparse Fine-tuning (SFT) and Low-rank adaptation (LoRA) are two frameworks that have emerged for addressing this problem and have been adopted widely in practice. In this work, we develop a new SFT framework, based on ideas from neural network pruning. At a high level, we first identify "important" neurons/nodes using feature importance metrics from network pruning (specifically, we use the structural pruning method), and then perform fine-tuning by restricting to weights involving these neurons. Using experiments on common language tasks, we demonstrate that our method significantly improves the memory efficiency of SFT without increasing training time complexity and implementation complexity, while achieving accuracy comparable to state-of-the-art methods such as LoRA and its variants.
- Abstract(参考訳): ファインチューニングは、大きな言語モデルのような基礎モデルを下流タスクに適応させる重要なステップである。
計算予算が限られているユーザにとってこのステップをより使いやすくするためには、メモリと計算効率のよい微調整手法を開発することが不可欠である。
スパースファインチューニング(SFT)とローランク適応(LoRA)はこの問題に対処するために登場した2つのフレームワークであり、実際には広く採用されている。
本研究では,ニューラルネットワークプルーニングのアイデアに基づく新しいSFTフレームワークを開発する。
高いレベルでは、まずネットワークプルーニング(具体的には構造プルーニング法)の特徴的重要度を用いて「重要な」ニューロン/ノードを識別し、これらのニューロンを含む重みに制限を加えて微調整を行う。
共通言語タスクの実験から,学習時間の複雑化や実装の複雑化を伴わずに,SFTのメモリ効率を著しく向上すると同時に,LoRAやその変種といった最先端の手法に匹敵する精度を達成できることが実証された。
関連論文リスト
- Fast-NTK: Parameter-Efficient Unlearning for Large-Scale Models [17.34908967455907]
マシン・アンラーニング'は、スクラッチから再トレーニングすることなく、不要なデータの選択的削除を提案する。
Fast-NTKはNTKベースの新しいアンラーニングアルゴリズムであり、計算複雑性を大幅に削減する。
論文 参考訳(メタデータ) (2023-12-22T18:55:45Z) - Model-Based Control with Sparse Neural Dynamics [23.961218902837807]
モデル学習と予測制御を統合した新しいフレームワークを提案する。
我々は,既存の最先端手法よりもクローズドループ性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-12-20T06:25:02Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。