Fugu-MT 論文翻訳(概要): PaCA: Partial Connection Adaptation for Efficient Fine-Tuning

論文の概要: PaCA: Partial Connection Adaptation for Efficient Fine-Tuning

arxiv url: http://arxiv.org/abs/2503.01905v2
Date: Tue, 11 Mar 2025 15:24:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 16:15:12.579358
Title: PaCA: Partial Connection Adaptation for Efficient Fine-Tuning
Title（参考訳）: PaCA: 効率的なファインチューニングのための部分接続適応
Authors: Sunghyeon Woo, Sol Namkung, Sunwoo Lee, Inho Jeong, Beomseok Kim, Dongsuk Jeon,
Abstract要約: モデルにアダプタ層を導入する代わりに、事前訓練した重み内でランダムに選択された部分接続を微調整するPAAを提案する。 LoRAと比較して、PaCAはトレーニング時間を22%削減し、メモリ使用量は16%削減した。
参考スコア（独自算出の注目度）: 11.379377511067732
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Prior parameter-efficient fine-tuning (PEFT) algorithms reduce memory usage and computational costs of fine-tuning large neural network models by training only a few additional adapter parameters, rather than the entire model. However, the reduction in computational costs due to PEFT does not necessarily translate to a reduction in training time; although the computational costs of the adapter layers are much smaller than the pretrained layers, it is well known that those two types of layers are processed sequentially on GPUs, resulting in significant latency overhead. LoRA and its variants merge low-rank adapter matrices with pretrained weights during inference to avoid latency overhead, but during training, the pretrained weights remain frozen while the adapter matrices are continuously updated, preventing such merging. To mitigate this issue, we propose Partial Connection Adaptation (PaCA), which fine-tunes randomly selected partial connections within the pretrained weights instead of introducing adapter layers in the model. PaCA not only enhances training speed by eliminating the time overhead due to the sequential processing of the adapter and pretrained layers but also reduces activation memory since only partial activations, rather than full activations, need to be stored for gradient computation. Compared to LoRA, PaCA reduces training time by 22% and total memory usage by 16%, while maintaining comparable accuracy across various fine-tuning scenarios, such as fine-tuning on the MMLU dataset and instruction tuning on the Oasst1 dataset. PaCA can also be combined with quantization, enabling the fine-tuning of large models such as LLaMA3.1-70B. In addition, PaCA enables training with 23% longer sequence and improves throughput by 16% on both NVIDIA A100 GPU and INTEL Gaudi2 HPU compared to LoRA. The code is available at https://github.com/WooSunghyeon/paca.
Abstract（参考訳）: 従来のパラメータ効率の細かいチューニング(PEFT)アルゴリズムは、モデル全体ではなく、いくつかの追加のアダプタパラメータをトレーニングすることで、大規模なニューラルネットワークモデルを微調整する際のメモリ使用量と計算コストを削減する。しかし、PEFTによる計算コストの削減は、必ずしもトレーニング時間の短縮にはならない。アダプタ層の計算コストは、事前訓練された層よりもはるかに小さいが、これらの2種類の層がGPU上で順次処理されることはよく知られている。 LoRAとその派生型は、遅延オーバーヘッドを避けるために推論中に事前訓練された重みと低ランクのアダプタ行列をマージするが、トレーニング中は事前訓練された重みは凍結され、アダプタ行列は継続的に更新され、そのようなマージが防止される。この問題を緩和するために、モデルにアダプタ層を導入する代わりに、予め訓練された重みの中で、微調整でランダムに選択された部分接続を実現する部分接続適応(PaCA)を提案する。 PaCAは、アダプタと事前訓練されたレイヤのシーケンシャルな処理による時間オーバーヘッドを排除し、トレーニング速度を向上するだけでなく、完全なアクティベーションではなく、部分的なアクティベーションのみをグラデーション計算に格納する必要があるため、アクティベーションメモリも削減する。 LoRAと比較して、PaCAはトレーニング時間を22%削減し、メモリ使用量は16%削減すると同時に、MMLUデータセットの微調整やOasst1データセットのインストラクションチューニングなど、さまざまな微調整シナリオで同等の精度を維持している。 PaCAは量子化と組み合わせて、LLaMA3.1-70Bのような大型モデルの微調整を可能にする。加えて、PaCAは23%のシーケンスでトレーニングを可能にし、LoRAと比較してNVIDIA A100 GPUとINTEL Gaudi2 HPUの両方でスループットを16%向上させる。コードはhttps://github.com/WooSunghyeon/paca.comで公開されている。

関連論文リスト

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity [52.88892280536302]
SparseLoRAは,コンテキスト空間の空間的分散によって微調整を高速化する手法である。 SparseLoRAは計算コストを最大2.2倍、測定速度を最大1.6倍に削減する。
論文参考訳（メタデータ） (2025-06-19T17:53:34Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Skip2-LoRA: A Lightweight On-device DNN Fine-tuning Method for Low-cost Edge Devices [7.219286228148705]
本稿では,深層ニューラルネットワークの軽量微調整手法としてSkip2-LoRAを提案する。本手法では,ネットワーク表現力を高めるため,最後の層と他の層の間にトレーニング可能なLoRAアダプタを挿入する。以上の結果から,Skip2-LoRAはトレーニング可能なパラメータの同じパラメータに比べて,微調整時間を平均90.0%削減できることがわかった。
論文参考訳（メタデータ） (2024-10-28T14:35:12Z)
SSDTrain: An Activation Offloading Framework to SSDs for Faster Large Language Model Training [13.283682311968752]
SSDTrainは、高容量GPUメモリにオフロードするアダプティブアクティベーションフレームワークである。 PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性がある。その結果、SSDTrainはアクティベーションピークメモリ使用量の47%を削減した。
論文参考訳（メタデータ） (2024-08-19T14:09:48Z)
Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文参考訳（メタデータ） (2024-08-16T11:27:52Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation [13.768426626459558]
本稿では,DropBP(Drop Backward Propagation)を提案する。 DropBPは後方伝播中にランダムにレイヤをドロップするが、これは本質的に浅いサブモジュールのトレーニングに相当する。ベースラインに匹敵する精度でトレーニング時間を44%削減し、同じパープレキシティへの収束を1.5倍加速し、1つのNVIDIA-A100 GPUでシーケンス長6.2倍のトレーニングを可能にする。
論文参考訳（メタデータ） (2024-02-27T14:51:11Z)
ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。 ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文参考訳（メタデータ） (2024-02-07T15:43:50Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。 LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文参考訳（メタデータ） (2023-12-05T05:38:38Z)
Parameter-efficient is not sufficient: Exploring Parameter, Memory, and Time Efficient Adapter Tuning for Dense Predictions [9.068569788978854]
パラメータ効率変換学習 (PETL) 法は, 訓練可能なパラメータの少ない下流タスクに適応する上で, 有望な性能を示した。コンピュータビジョン(CV)におけるPETL法は、計算コストが高く、訓練中に大量のメモリと時間コストを必要とする。 MathrmE3VA$は62.2%のトレーニングメモリと26.2%のトレーニング時間を節約できる。
論文参考訳（メタデータ） (2023-06-16T09:54:07Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Your representations are in the network: composable and parallel adaptation for large scale models [90.26965623489157]
InCAは、事前訓練されたモデルの任意のアクティベーション層にクロスタッチするトランスファー学習の軽量な方法である。 InCAは,1つのトップスコーリングアダプタを選択しても,フル微調整に匹敵する性能を発揮することを示す。
論文参考訳（メタデータ） (2023-03-07T18:12:24Z)
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。 PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文参考訳（メタデータ） (2022-06-13T23:51:56Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。