論文の概要: On-the-Fly Adaptation to Quantization: Configuration-Aware LoRA for Efficient Fine-Tuning of Quantized LLMs
- arxiv url: http://arxiv.org/abs/2509.25214v1
- Date: Mon, 22 Sep 2025 11:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.166408
- Title: On-the-Fly Adaptation to Quantization: Configuration-Aware LoRA for Efficient Fine-Tuning of Quantized LLMs
- Title(参考訳): 量子化へのオンザフライ適応:量子化LDMの効率的な微調整のための構成対応LORA
- Authors: Rongguang Ye, Ming Tang, Edith C. H. Ngai,
- Abstract要約: 最近の研究は、量子化と高精度LoRAアダプタの微調整を組み合わせている。
任意の量子化構成にLoRAアダプタを動的に調整する手法であるCoA-LoRAを提案する。
- 参考スコア(独自算出の注目度): 16.306168027001288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As increasingly large pre-trained models are released, deploying them on edge devices for privacy-preserving applications requires effective compression. Recent works combine quantization with the fine-tuning of high-precision LoRA adapters, which can substantially reduce model size while mitigating the accuracy loss from quantization. However, edge devices have inherently heterogeneous capabilities, while performing configuration-wise fine-tuning for every quantization setting is computationally prohibitive. In this paper, we propose CoA-LoRA, a method that dynamically adjusts the LoRA adapter to arbitrary quantization configurations (i.e., the per-layer bit-width choices of a pre-trained model) without requiring repeated fine-tuning. This is accomplished via a configuration-aware model that maps each configuration to its low-rank adjustments. The effectiveness of this model critically depends on the training configuration set, a collection of configurations chosen to cover different total bit-width budgets. However, constructing a high-quality configuration set is non-trivial. We therefore design a Pareto-based configuration search that iteratively optimizes the training configuration set, yielding more precise low-rank adjustments. Our experiments demonstrate that, unlike the state-of-the-art methods that require fine-tuning a separate LoRA adapter for each configuration, CoA-LoRA incurs no additional time cost while achieving comparable or even superior performance to those methods.
- Abstract(参考訳): 大規模で事前訓練されたモデルがリリースされるにつれて、プライバシ保護アプリケーションのためのエッジデバイスにそれらをデプロイするには、効果的な圧縮が必要である。
最近の研究は、量子化と高精度LoRAアダプタの微調整を組み合わせることで、量子化による精度損失を軽減しつつ、モデルサイズを大幅に削減することができる。
しかし、エッジデバイスは本質的に不均一な機能を持ち、量子化設定ごとに設定ワイドな微調整を実行することは、計算的に禁じられている。
本稿では,LoRAアダプタを任意の量子化構成(例えば,事前学習されたモデルのビット幅毎の選択)に動的に調整する手法であるCoA-LoRAを提案する。
これは、各構成を低ランクの調整にマッピングする設定対応モデルによって実現される。
このモデルの有効性は、異なるビット幅の予算をカバーするために選択された構成の集合であるトレーニング構成セットに依存する。
しかし、高品質な構成セットを構築することは自明ではない。
そこで我々は、トレーニング設定を反復的に最適化し、より正確な低ランク調整を実現するParetoベースの構成探索を設計する。
実験により,各構成ごとに個別のLoRAアダプタを微調整する必要がある最先端の手法とは異なり,CoA-LoRAはこれらの手法と同等あるいは優れた性能を達成しつつ,追加の時間コストを発生させないことが示された。
関連論文リスト
- HSplitLoRA: A Heterogeneous Split Parameter-Efficient Fine-Tuning Framework for Large Language Models [30.345920952847752]
大規模言語モデル(LLM)は、自然言語処理領域などに革命をもたらし、目覚ましいブレークスルーを達成した。
膨大なパラメータサイズのため、様々な下流タスクのためのプライベートデータでこれらのモデルを微調整することが主流になっている。
本研究では,分割学習(SL)と低ランク適応(LoRA)に基づくフレームワークであるHSplitLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:09:19Z) - Efficient Split Federated Learning for Large Language Models over Communication Networks [45.02252893286613]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することで、リソース制約のあるエッジネットワークにおいて大きな課題が生じる。
本稿では,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるSflLLMを提案する。
モデル分割とローランク適応(LoRA)を活用することにより、SflLLMはエッジデバイスの計算負担を軽減する。
論文 参考訳(メタデータ) (2025-04-20T16:16:54Z) - DiffoRA: Enabling Parameter-Efficient Fine-Tuning via Differential Module Selection [32.369133126167085]
Low-Rank Adaptation (LoRA) は、既存のトレーニング済みモデルに低ランク行列を組み込むことで、その合理化設計で人気を博している。
本稿では,低ランク分解行列を適応的に適用可能なDiffoRAを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:41:34Z) - GeLoRA: Geometric Adaptive Ranks For Efficient LoRA Fine-tuning [2.7446241148152253]
微調整された大言語モデル(LLM)は、全てのパラメータを更新する必要があるため、計算集約的である。
Low-Rank Adaptation (LoRA)は、重みのサブセットだけを変更することで効率を向上するが、表現性と計算コストのトレードオフをもたらす。
隠れ状態表現の内在的次元を計算し,LoRAランクを適応的に選択する新しいフレームワークGeLoRAを提案する。
論文 参考訳(メタデータ) (2024-12-12T13:04:54Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。
提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。
提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文 参考訳(メタデータ) (2024-08-11T11:53:29Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。