論文の概要: SplitLoRA: A Split Parameter-Efficient Fine-Tuning Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2407.00952v1
- Date: Mon, 1 Jul 2024 04:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:46:07.632954
- Title: SplitLoRA: A Split Parameter-Efficient Fine-Tuning Framework for Large Language Models
- Title(参考訳): SplitLoRA: 大規模言語モデルのための分割パラメータ効率の良いファインチューニングフレームワーク
- Authors: Zheng Lin, Xuanjie Hu, Yuxin Zhang, Zhe Chen, Zihan Fang, Xianhao Chen, Ang Li, Praneeth Vepakomma, Yue Gao,
- Abstract要約: SplitLoRAはSFLフレームワーク上に構築されており、FLからの並列トレーニングとSLからのモデル分割の利点を融合している。
SplitLoRAはSL LLMファインチューニングのための最初のオープンソースベンチマークである。
- 参考スコア(独自算出の注目度): 23.1321591734785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scalability of large language models (LLMs) in handling high-complexity models and large-scale datasets has led to tremendous successes in pivotal domains. While there is an urgent need to acquire more training data for LLMs, a concerning reality is the depletion of high-quality public datasets within a few years. In view of this, the federated learning (FL) LLM fine-tuning paradigm recently has been proposed to facilitate collaborative LLM fine-tuning on distributed private data, where multiple data owners collaboratively fine-tune a shared LLM without sharing raw data. However, the staggering model size of LLMs imposes heavy computing and communication burdens on clients, posing significant barriers to the democratization of the FL LLM fine-tuning paradigm. To address this issue, split learning (SL) has emerged as a promising solution by offloading the primary training workload to a server via model partitioning while exchanging activation/activation's gradients with smaller data sizes rather than the entire LLM. Unfortunately, research on the SL LLM fine-tuning paradigm is still in its nascent stage. To fill this gap, in this paper, we propose the first SL LLM fine-tuning framework, named SplitLoRA. SplitLoRA is built on the split federated learning (SFL) framework, amalgamating the advantages of parallel training from FL and model splitting from SL and thus greatly enhancing the training efficiency. It is worth noting that SplitLoRA is the inaugural open-source benchmark for SL LLM fine-tuning, providing a foundation for research efforts dedicated to advancing SL LLM fine-tuning. Extensive simulations validate that SplitLoRA achieves target accuracy in significantly less time than state-of-the-art LLM fine-tuning frameworks, demonstrating the superior training performance of SplitLoRA. The project page is available at https://fduinc.github.io/splitlora/.
- Abstract(参考訳): 大規模言語モデル(LLM)の高複雑性モデルと大規模データセットを扱うスケーラビリティは、重要な領域において大きな成功を収めている。
LLMのためのより多くのトレーニングデータを取得する必要があるが、懸念される現実は、数年以内に高品質な公開データセットが枯渇することである。
この観点から、最近、複数のデータ所有者が生データを共有せずに共有LLMを協調的に微調整する分散プライベートデータ上で、協調LLMの微調整を容易にするために、FL(Federated Learning) LLMファインチューニングパラダイムが提案されている。
しかし、LDMの停滞するモデルサイズは、クライアントに重い計算と通信負荷を課し、FL LLMファインチューニングパラダイムの民主化に重大な障壁を生じさせる。
この問題に対処するために、スプリットラーニング(SL)は、LLM全体ではなく、より小さなデータサイズでアクティベーション/アクティベーションの勾配を交換しながら、モデルのパーティショニングを通じて、最初のトレーニングワークロードをサーバにオフロードすることで、有望なソリューションとして現れました。
残念ながら、SL LLMファインチューニングパラダイムの研究はまだ初期段階にある。
本稿では,このギャップを埋めるために,最初のSL LLMファインチューニングフレームワークであるSplitLoRAを提案する。
SplitLoRAはSFLフレームワーク上に構築されており、FLからの並列トレーニングとSLからのモデル分割の利点を融合させ、トレーニング効率を大幅に向上させる。
SplitLoRAはSL LLMファインチューニングの初歩的なオープンソースベンチマークであり、SL LLMファインチューニングの推進を目的とした研究の基盤となっている点に注意が必要だ。
大規模なシミュレーションにより、SplitLoRAは最先端のLLM微調整フレームワークよりもはるかに少ない時間で目標精度を達成でき、SplitLoRAの優れたトレーニング性能を示す。
プロジェクトページはhttps://fduinc.github.io/splitlora/で公開されている。
関連論文リスト
- Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。