Fugu-MT 論文翻訳(概要): AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning

論文の概要: AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning

arxiv url: http://arxiv.org/abs/2602.22268v1
Date: Wed, 25 Feb 2026 07:18:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.338905
Title: AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning
Title（参考訳）: AutoQRA: LLMファインチューニングのための混合精度量子化と低ランク適応器の統合最適化
Authors: Changhai Zhou, Shiyang Zhang, Yuhua Zhou, Qian Qiao, Jun Gao, Cheng Jin, Kaizhou Qin, Weizhong Zhang,
Abstract要約: 混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークを提案する。実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 23.59600455731982
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantization followed by parameter-efficient fine-tuning has emerged as a promising paradigm for downstream adaptation under tight GPU memory constraints. However, this sequential pipeline fails to leverage the intricate interaction between quantization bit-width and LoRA rank. Specifically, a carefully optimized quantization allocation with low quantization error does not always translate to strong fine-tuning performance, and different bit-width and rank configurations can lead to significantly varying outcomes under the same memory budget. To address this limitation, we propose AutoQRA, a joint optimization framework that simultaneously optimizes the bit-width and LoRA rank configuration for each layer during the mixed quantized fine-tuning process. To tackle the challenges posed by the large discrete search space and the high evaluation cost associated with frequent fine-tuning iterations, AutoQRA decomposes the optimization process into two stages. First, it first conducts a global multi-fidelity evolutionary search, where the initial population is warm-started by injecting layer-wise importance priors. This stage employs specific operators and a performance model to efficiently screen candidate configurations. Second, trust-region Bayesian optimization is applied to locally refine promising regions of the search space and identify optimal configurations under the given memory budget. This approach enables active compensation for quantization noise in specific layers during training. Experiments show that AutoQRA achieves performance close to full-precision fine-tuning with a memory footprint comparable to uniform 4-bit methods.
Abstract（参考訳）: 量子化に続いてパラメータ効率の細かい微調整が、厳しいGPUメモリ制約の下で下流適応のための有望なパラダイムとして登場した。しかし、このシーケンシャルパイプラインは量子化ビット幅とLoRAランクの間の複雑な相互作用を利用することができない。具体的には、量子化誤差の低い入念に最適化された量子化割り当ては、常に強い微調整性能に変換されるわけではなく、異なるビット幅とランク構成は、同じメモリ予算の下で著しく異なる結果をもたらす可能性がある。この制限に対処するため,混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークであるAutoQRAを提案する。大規模な離散探索空間と頻繁な微調整の繰り返しに伴う高い評価コストの課題に対処するため、AutoQRAは最適化プロセスを2段階に分割する。まず、まずグローバルな多要素進化探索を行い、初期個体群は階層的に重要な先行個体を注入することによって暖かく開始される。このステージでは、特定の演算子とパフォーマンスモデルを使用して、候補設定を効率的にスクリーニングする。第二に、信頼領域ベイズ最適化は、検索空間の将来性のある領域を局所的に洗練し、与えられたメモリ予算の下で最適な構成を特定するために適用される。このアプローチは、トレーニング中の特定の層における量子化ノイズに対するアクティブな補償を可能にする。実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。

関連論文リスト

Slice-Wise Initial State Optimization to Improve Cost and Accuracy of the VQE on Lattice Models [0.0]
本稿では,適応型および物理インスピレーション型アンザッツ設計を組み合わせた変分量子固有解器(VQE)の最適化手法を提案する。この準力学的アプローチは、演算子選択のオーバーヘッドを回避しつつ、表現性とハードウェア効率を保っている。最大20キュービットの1次元および2次元ハイゼンベルクおよびハバードモデルのベンチマークでは、固定層VQEと比較して、忠実度の改善、機能評価の削減、あるいはその両方が示されている。
論文参考訳（メタデータ） (2025-09-16T12:52:23Z)
MLoRQ: Bridging Low-Rank and Quantization for Transformer Compression [2.9907287985468924]
MLoRQ(Mixed Low-Rank and Quantization)は、低ランク近似と混合精度量子化を統合する新しい手法である。 MLoRQは、最先端の結果を最大15%のパフォーマンス改善で示している。
論文参考訳（メタデータ） (2025-07-13T12:48:46Z)
Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文参考訳（メタデータ） (2025-07-13T12:33:37Z)
Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth [10.872650037112255]
QLoRAは、低ビット量子化とLoRAを効果的に組み合わせて、大規模言語モデル(LLM)のためのメモリフレンドリーな微調整を実現する。部分キャリブレーションデータを用いて、各層に対する量子化成分と低ランク空間のランクを共同で探索する、統一的かつ勾配のない戦略である textbfQR-Adaptor を提案する。提案手法はGSM8Kに対して4.89%の精度向上を実現し、4ビット設定のメモリフットプリントを維持しつつ、16ビットの微調整モデルよりも優れるケースもある。
論文参考訳（メタデータ） (2025-05-02T08:46:01Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文参考訳（メタデータ） (2024-11-10T19:59:54Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文参考訳（メタデータ） (2024-10-10T08:10:53Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文参考訳（メタデータ） (2020-10-01T18:14:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。