論文の概要: HD-PiSSA: High-Rank Distributed Orthogonal Adaptation
- arxiv url: http://arxiv.org/abs/2505.18777v2
- Date: Fri, 30 May 2025 03:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.079015
- Title: HD-PiSSA: High-Rank Distributed Orthogonal Adaptation
- Title(参考訳): HD-PiSSA: 高速分散直交適応
- Authors: Yiding Wang, Fauxu Meng, Xuefeng Zhang, Fan Jiang, Pingzhi Tang, Muhan Zhang,
- Abstract要約: HD-PiSSAは、異なるデバイスにまたがるアダプタを初期化する分散PEFTアプローチである。
これにより、データ並列のLoRAやPiSSAよりも16倍以上の効果的な更新ランクが得られる。
マルチタスク設定では、HD-PiSSAはLoRAよりも10.0絶対点(14.63%)、PiSSAより4.98点(6.60%)の平均ゲインを達成している。
- 参考スコア(独自算出の注目度): 21.055762208109957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing parameter-efficient fine-tuning (PEFT) methods for large language models (LLMs), such as LoRA and PiSSA, constrain model updates to low-rank subspaces, limiting their expressiveness and leading to suboptimal performance on complex tasks. To address this, we introduce High-rank Distributed PiSSA (HD-PiSSA), a distributed PEFT approach that initializes orthogonal adapters across different devices and aggregates their delta updates collectively on W for fine-tuning. Unlike Data Parallel LoRA or PiSSA, which maintain identical adapters across all devices, HD-PiSSA assigns different principal components of the pre-trained weights to each GPU, significantly expanding the range of update directions. This results in over 16x higher effective updated ranks than data-parallel LoRA or PiSSA when fine-tuning on 8 GPUs with the same per-device adapter rank. Empirically, we evaluate HD-PiSSA across various challenging downstream tasks, including mathematics, code generation, and multi-task learning. In the multi-task setting, HD-PiSSA achieves average gains of 10.0 absolute points (14.63%) over LoRA and 4.98 points (6.60%) over PiSSA across 12 benchmarks, demonstrating its benefits from the extra optimization flexibility.
- Abstract(参考訳): LoRAやPiSSAのような大規模言語モデル(LLM)のための既存のパラメータ効率の良い微調整(PEFT)手法は、低ランクのサブスペースへのモデル更新を制約し、表現性を制限し、複雑なタスクにおいて最適なパフォーマンスをもたらす。
そこで本研究では,複数のデバイスにまたがる直交アダプタを初期化する分散PEFTアプローチであるHigh-rank Distributed PiSSA(HD-PiSSA)を導入し,そのデルタ更新をW上に集約して微調整を行う。
すべてのデバイスで同一のアダプタをメンテナンスするData Parallel LoRAやPiSSAとは異なり、HD-PiSSAはトレーニング済み重量の異なる主要コンポーネントを各GPUに割り当て、更新方向の範囲を大幅に拡大する。
これにより、デバイス毎のアダプタランクが同じ8GPU上で微調整を行う場合、データ並列のLoRAやPiSSAよりも16倍高い効率の更新ランクが得られる。
実験により,HD-PiSSAを,数学,コード生成,マルチタスク学習など,さまざまな課題の下流タスクで評価した。
マルチタスク環境では、HD-PiSSAはLoRAよりも10.0絶対点(14.63%)、PiSSAより4.98点(6.60%)の平均ゲインを達成し、追加最適化の柔軟性の利点を示している。
関連論文リスト
- Flex-PE: Flexible and SIMD Multi-Precision Processing Element for AI Workloads [0.0]
本研究は,フレキシブル・SIMDマルチ精度処理素子(FlexPE)を提案する。
提案設計では,パイプラインモードで最大16倍FxP4,8倍FxP8,4倍FxP16,1倍FxP32のスループットを実現する。
論文 参考訳(メタデータ) (2024-12-16T12:25:57Z) - PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models [23.890454137522774]
主特異値と特異ベクトル適応(PiSSA)を導入する。
PiSSAはLoRAと同じアーキテクチャを共有しているが、アダプタ行列を$A$と$B$で初期化し、元の行列の主成分を$W$とし、残りのコンポーネントをmathbbRm times n$の残留行列に配置する。
LoRAと比較すると、PiSSAは主コンポーネントを更新し、"残留"部分を凍結することで、より高速な収束と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-04-03T15:06:43Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees [95.87604231887353]
既存のpFL手法は高い通信コストと計算コストをもたらすか、テスト通信に弱い。
PerAdaではパラメータ蒸留とpFL pFLが特に試験時間分布において優れた性能を示す。
私たちのコードはhttps://github.com/NV/PerAda.comで公開されています。
論文 参考訳(メタデータ) (2023-02-13T19:00:37Z) - PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs [3.3019914257038168]
ダイナミックグラフニューラルネットワーク(DGNN)は,リンク予測やパンデミック予測など,さまざまなリアルタイムアプリケーションに広く応用されている。
DGNNは、かなりの並列計算とデータ再利用の可能性を示すが、メモリアクセスの非効率性とデータ転送オーバーヘッドに悩まされている。
我々は、GPU上でのエンドツーエンドのパフォーマンス最適化のためのトレーニングフレームワークとして、$underlinetextbfPipelined$と$underlinetextbfDGNNのPiPADを提案する。
論文 参考訳(メタデータ) (2023-01-01T12:10:31Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with
Quantization-Aware Training and Adaptive Parallelism [0.0]
FIXARはSW/HWの共同設計アプローチを用いて、初めて固定点データ型と算術単位を使用する。
量子アウェアトレーニング(QAT)は、アクティベーションの範囲に基づいてデータ精度を低減し、報酬の劣化を最小限に抑えるために再トレーニングを実行する。
FIXARはXilinx U50と25293.3のトレーニングスループット(IPS)と2638.0のIPS/W加速効率で実装された。
論文 参考訳(メタデータ) (2021-02-24T07:22:38Z) - AutoHAS: Efficient Hyperparameter and Architecture Search [104.29883101871083]
AutoHASは、共有ネットワークウェイトと強化学習コントローラを交互に更新することを学ぶ。
選択したHPから更新された重量を格納するために一時的な重量を導入する。
実験では、AutoHASは様々な検索空間、ベースライン、データセットに対して効率的かつ一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-05T19:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。