論文の概要: EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction
- arxiv url: http://arxiv.org/abs/2506.12015v1
- Date: Fri, 13 Jun 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.920022
- Title: EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction
- Title(参考訳): EMLoC: LoRA補正によるエミュレータベースのメモリ効率微調整
- Authors: Hsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang,
- Abstract要約: オープンソースファウンデーションモデルは急速に採用され開発され、多様なドメインにまたがる強力な汎用機能を実現している。
しかし、ドメイン固有のタスクやパーソナライズされたタスクのための微調整された大規模な基礎モデルは、推論以上のメモリオーバーヘッドのため、ほとんどのユーザにとって高価である。
我々は,LoRA補正を用いたエミュレータベースのメモリ効率の高い微調整フレームワークであるoCを導入し,推論に要する同じメモリ予算内でモデル微調整を可能にする。
- 参考スコア(独自算出の注目度): 23.69537251732286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source foundation models have seen rapid adoption and development, enabling powerful general-purpose capabilities across diverse domains. However, fine-tuning large foundation models for domain-specific or personalized tasks remains prohibitively expensive for most users due to the significant memory overhead beyond that of inference. We introduce EMLoC, an Emulator-based Memory-efficient fine-tuning framework with LoRA Correction, which enables model fine-tuning within the same memory budget required for inference. EMLoC constructs a task-specific light-weight emulator using activation-aware singular value decomposition (SVD) on a small downstream calibration set. Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle the misalignment between the original model and the compressed emulator, we propose a novel compensation algorithm to correct the fine-tuned LoRA module, which thus can be merged into the original model for inference. EMLoC supports flexible compression ratios and standard training pipelines, making it adaptable to a wide range of applications. Extensive experiments demonstrate that EMLoC outperforms other baselines across multiple datasets and modalities. Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a single 24GB consumer GPU-bringing efficient and practical model adaptation to individual users.
- Abstract(参考訳): オープンソースファウンデーションモデルは急速に採用され開発され、多様なドメインにまたがる強力な汎用機能を実現している。
しかし、ドメイン固有のタスクやパーソナライズされたタスクのための微調整された大規模な基礎モデルは、推論以上のメモリオーバーヘッドのため、ほとんどのユーザにとって違法に高価である。
本稿では,エミュレータをベースとしたLoRA補正を用いたメモリ効率の高い微調整フレームワークEMLoCを紹介する。
EMLoCは、小さな下流キャリブレーションセット上にアクティベーション対応特異値分解(SVD)を用いたタスク固有の軽量エミュレータを構築する。
次に、この軽量エミュレータ上でLoRAを介して微調整を行う。
そこで本研究では,オリジナルのモデルと圧縮エミュレータのミスアライメントに対処するため,微調整されたLoRAモジュールを補正する新しい補償アルゴリズムを提案する。
EMLoCはフレキシブルな圧縮比と標準的なトレーニングパイプラインをサポートし、幅広いアプリケーションに適用できる。
大規模な実験では、EMLoCは複数のデータセットとモダリティで他のベースラインを上回っている。
さらに、量子化なしでは、EMLoCは単一の24GBのコンシューマGPUブリングで38Bモデルを微調整できる。
関連論文リスト
- HSplitLoRA: A Heterogeneous Split Parameter-Efficient Fine-Tuning Framework for Large Language Models [30.345920952847752]
大規模言語モデル(LLM)は、自然言語処理領域などに革命をもたらし、目覚ましいブレークスルーを達成した。
膨大なパラメータサイズのため、様々な下流タスクのためのプライベートデータでこれらのモデルを微調整することが主流になっている。
本研究では,分割学習(SL)と低ランク適応(LoRA)に基づくフレームワークであるHSplitLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:09:19Z) - Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。
最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。
特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-03-19T00:18:37Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - BYOM: Building Your Own Multi-Task Model For Free [69.63765907216442]
BYOM-FFTは完全微調整モデルのマージ用であり、BYOM-LoRAはLoRA微調整モデルのマージ用である。
コンピュータビジョンと自然言語処理タスクの実験により、提案手法は既存のマージ手法よりも大きなマージ率で優れていることが示された。
論文 参考訳(メタデータ) (2023-10-03T08:39:33Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。