論文の概要: You Don't Need All Attentions: Distributed Dynamic Fine-Tuning for Foundation Models
- arxiv url: http://arxiv.org/abs/2504.12471v1
- Date: Wed, 16 Apr 2025 20:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:35:07.108081
- Title: You Don't Need All Attentions: Distributed Dynamic Fine-Tuning for Foundation Models
- Title(参考訳): すべての注意を必要としない - ファンデーションモデルのための分散動的微調整
- Authors: Shiwei Ding, Lan Zhang, Zhenlin Wang, Giuseppe Ateniese, Xiaoyong Yuan,
- Abstract要約: 本稿では,注目モジュール間の操作をオーケストレーションする分散動的ファインチューニングフレームワークを紹介する。
D2FTは微調整基礎モデルに必要な計算負荷を大幅に削減する。
その結果、D2FTは最新のパラメータ効率向上技術であるLoRAに効果的に拡張できることがわかった。
- 参考スコア(独自算出の注目度): 13.234730313131054
- License:
- Abstract: Fine-tuning plays a crucial role in adapting models to downstream tasks with minimal training efforts. However, the rapidly increasing size of foundation models poses a daunting challenge for accommodating foundation model fine-tuning in most commercial devices, which often have limited memory bandwidth. Techniques like model sharding and tensor parallelism address this issue by distributing computation across multiple devices to meet memory requirements. Nevertheless, these methods do not fully leverage their foundation nature in facilitating the fine-tuning process, resulting in high computational costs and imbalanced workloads. We introduce a novel Distributed Dynamic Fine-Tuning (D2FT) framework that strategically orchestrates operations across attention modules based on our observation that not all attention modules are necessary for forward and backward propagation in fine-tuning foundation models. Through three innovative selection strategies, D2FT significantly reduces the computational workload required for fine-tuning foundation models. Furthermore, D2FT addresses workload imbalances in distributed computing environments by optimizing these selection strategies via multiple knapsack optimization. Our experimental results demonstrate that the proposed D2FT framework reduces the training computational costs by 40% and training communication costs by 50% with only 1% to 2% accuracy drops on the CIFAR-10, CIFAR-100, and Stanford Cars datasets. Moreover, the results show that D2FT can be effectively extended to recent LoRA, a state-of-the-art parameter-efficient fine-tuning technique. By reducing 40% computational cost or 50% communication cost, D2FT LoRA top-1 accuracy only drops 4% to 6% on Stanford Cars dataset.
- Abstract(参考訳): 微調整は、最小限のトレーニング努力で下流タスクにモデルを適用する上で重要な役割を担います。
しかし、ファンデーションモデルのサイズが急速に大きくなると、ほとんどの商用デバイスではメモリ帯域幅が限られているファウンデーションモデルの微調整が困難になる。
モデルシャーディングやテンソル並列処理のような技術は、メモリ要求を満たすために複数のデバイスに分散計算を分散することでこの問題に対処する。
しかしながら、これらの手法は微調整プロセスの促進に基礎的な性質を十分に活用していないため、高い計算コストと不均衡なワークロードが生じる。
本稿では,注目モジュール間の操作を戦略的にオーケストレーションする分散動的微調整(D2FT)フレームワークを提案する。
3つの革新的な選択戦略を通じて、D2FTは微調整基礎モデルに必要な計算負荷を大幅に削減する。
さらに、D2FTは分散コンピューティング環境におけるワークロードの不均衡に対処し、複数のknapsack最適化を通じてこれらの選択戦略を最適化する。
実験の結果,提案したD2FTフレームワークは,CIFAR-10,CIFAR-100,Stanford Carsのデータセット上で,トレーニング計算コストを40%削減し,トレーニング通信コストを50%削減することがわかった。
さらに,D2FTは,最新のパラメータ効率向上技術であるLoRAに効果的に拡張可能であることを示した。
計算コストの40%削減や通信コストの50%削減により、D2FT LoRA Top-1の精度はStanford Carsデータセットで4%から6%しか低下しない。
関連論文リスト
- Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction [52.32698071488864]
非常に大きな3DメッシュのCFD問題を効率的に解く新しいアーキテクチャであるFactized Implicit Global Convolution (FIGConv)を提案する。
FIGConvは、既存の3DニューラルCFDモデルよりも大幅に改善された2次複雑性の$O(N2)$を達成する。
業界標準のAhmedボディデータセットと大規模DrivAerNetデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:57:57Z) - Federated Learning with Workload Reduction through Partial Training of Client Models and Entropy-Based Data Selection [3.9981390090442694]
我々は,エッジデバイス上でのトレーニング負荷を削減するために,部分的クライアントモデルのファインチューニングとエントロピーベースのデータ選択を組み合わせた新しいアプローチであるFedFT-EDSを提案する。
実験の結果,FedFT-EDSは50%のユーザデータしか使用せず,ベースライン法,FedAvg,FedProxに比べてグローバルモデルの性能が向上していることがわかった。
FedFT-EDSは、クライアントでのトレーニング時間の3分の1を使用して、クライアントの学習効率を最大3倍改善する。
論文 参考訳(メタデータ) (2024-12-30T22:47:32Z) - GDeR: Safeguarding Efficiency, Balancing, and Robustness via Prototypical Graph Pruning [44.401418612374286]
トレーニング可能なプロトタイプを用いて,プロセス中のトレーニングを更新するための新しいソフトプルーニング手法であるGDeRを導入する。
GDeRは、トレーニングサンプルの30%削減で、完全なデータセットのパフォーマンスを達成または上回る。
また、不均衡なトレーニングやノイズの多いトレーニングシナリオにおいて、最先端のプルーニング手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-17T16:56:01Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.58472343957521]
トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。
本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T12:53:48Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。