論文の概要: HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture
- arxiv url: http://arxiv.org/abs/2502.19747v2
- Date: Tue, 04 Mar 2025 02:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 12:13:42.252904
- Title: HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture
- Title(参考訳): HaLoRA:ハイブリッド・コンピュート・イン・メモリアーキテクチャに基づく大規模言語モデルのハードウェア対応低ランク適応
- Authors: Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Chufan Shi, Zhengwu Liu, Ngai Wong,
- Abstract要約: 低ランク適応(LoRA)は、下流タスクに大規模言語モデル(LLM)を適用するためのパラメータ効率の高い微調整法である。
RRAM固有のノイズによる性能劣化に対処するため,ハードウェア対応低ランク適応法(HaLoRA)を考案した。
LLaMA 3.2 1Bと3Bを微調整した実験では、HaLoRAが複数の推論タスクにまたがって有効であることを示し、平均スコアを最大22.7改善した。
- 参考スコア(独自算出の注目度): 9.451914483640605
- License:
- Abstract: Low-rank adaptation (LoRA) is a predominant parameter-efficient finetuning method to adapt large language models (LLMs) for downstream tasks. In this paper, we first propose to deploy the LoRA-finetuned LLMs on the hybrid compute-in-memory (CIM) architecture (i.e., pretrained weights onto RRAM and LoRA onto SRAM). To address performance degradation from RRAM's inherent noise, we design a novel Hardware-aware Low-rank Adaption (HaLoRA) method, aiming to train a LoRA branch that is both robust and accurate by aligning the training objectives under both ideal and noisy conditions. Experiments finetuning LLaMA 3.2 1B and 3B demonstrate HaLoRA's effectiveness across multiple reasoning tasks, achieving up to 22.7 improvement in average score while maintaining robustness at various noise levels.
- Abstract(参考訳): 低ランク適応 (LoRA) は、下流タスクに大規模言語モデル (LLM) を適用するためのパラメータ効率の高い微調整法である。
本稿では,RRAM と LoRA の混合計算メモリ (CIM) アーキテクチャ (RRAM と LoRA への事前学習重み付け) 上に LoRA ファインタット LLM をデプロイすることを提案する。
RRAM固有のノイズからの性能劣化を解決するため,ハードウェア対応低ランク適応法(HaLoRA)を設計した。
LLaMA 3.2 1B と 3B を微調整した実験では、HaLoRA が複数の推論タスクにまたがって有効であることを示し、様々な騒音レベルにおいて頑健性を維持しながら平均スコアを最大22.7 改善した。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models [23.442612142677504]
Low-Rank Adaption (LoRA)は、大規模言語モデルに対してコスト効率の良い微調整ソリューションを提供する。
しかし、LoRAのメモリフットプリントは、主にオリジナルのモデルパラメータに支配されている。
メモリ効率のよいLoRA学習手法であるLoRAMを提案する。
論文 参考訳(メタデータ) (2025-02-19T08:39:15Z) - LoRA-Mini : Adaptation Matrices Decomposition and Selective Training [2.0670689746336]
Low-Rank Adaptation (LoRA)は、トレーニング可能なパラメータの数を減らし、パラメータ効率の良い微調整を可能にする、有望なソリューションとして登場した。
低ランク行列を4つに分割することでパラメータ効率を向上させるLoRAを最適化したLoRA-Miniを提案する。
このアプローチは、標準のLoRAに匹敵するパフォーマンスレベルを維持しながら、トレーニング可能なパラメータの数に対して、標準のLoRAと比較して最大20倍の削減を実現している。
論文 参考訳(メタデータ) (2024-11-24T12:21:14Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning [9.91790333647256]
低ランク適応法(LoRA)とその混合実験法(MOE)は,高効率なパラメータ効率微調整法(PEFT)である。
新規かつ効率的なLoRA変種であるMiLoRAを提案する。
MiLoRAは、各LoRAモジュールを専門家として考慮し、プロンプト対応のルーティング機構を採用することで、従来のMOEスタイルのLoRAメソッドと異なる。
論文 参考訳(メタデータ) (2024-10-23T17:04:40Z) - MoR: Mixture of Ranks for Low-Rank Adaptation Tuning [18.102354643796826]
Low-Rank Adaptation (LoRA) は研究を推進し、その性能を完全な微調整と整合させる。
MoEスタイルのLoRAメソッドはパラメータと推論遅延を大幅に増加させる。
入力に基づいて異なるタスクのランク特化情報を学習するMixture of Ranks(MoR)を導入する。
MoRは1.31%のパフォーマンス向上を実現し、標準手法に比べて93.93%のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-10-17T10:14:52Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。