Fugu-MT 論文翻訳(概要): IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models

論文の概要: IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models

arxiv url: http://arxiv.org/abs/2410.21759v1
Date: Tue, 29 Oct 2024 05:50:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.714816
Title: IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models
Title（参考訳）: IntLoRA:量子拡散モデルの積分低ランク適応
Authors: Hang Guo, Yawei Li, Tao Dai, Shu-Tao Xia, Luca Benini,
Abstract要約: IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。 IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
参考スコア（独自算出の注目度）: 68.55148272295916
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Fine-tuning large-scale text-to-image diffusion models for various downstream tasks has yielded impressive results. However, the heavy computational burdens of tuning large models prevent personal customization. Recent advances have attempted to employ parameter-efficient fine-tuning (PEFT) techniques to adapt the floating-point (FP) or quantized pre-trained weights. Nonetheless, the adaptation parameters in existing works are still restricted to FP arithmetic, hindering hardware-friendly acceleration. In this work, we propose IntLoRA, to further push the efficiency limits by using integer type (INT) low-rank parameters to adapt the quantized diffusion models. By working in the integer arithmetic, our IntLoRA offers three key advantages: (i) for fine-tuning, the pre-trained weights are quantized, reducing memory usage; (ii) for storage, both pre-trained and low-rank weights are in INT which consumes less disk space; (iii) for inference, IntLoRA weights can be naturally merged into quantized pre-trained weights through efficient integer multiplication or bit-shifting, eliminating additional post-training quantization. Extensive experiments demonstrate that IntLoRA can achieve performance on par with or even superior to the vanilla LoRA, accompanied by significant efficiency improvements. Code is available at \url{https://github.com/csguoh/IntLoRA}.
Abstract（参考訳）: 様々な下流タスクのための微調整された大規模テキスト・画像拡散モデルにより、印象的な結果が得られた。しかし、大規模なモデルをチューニングする際の計算負荷は、個人のカスタマイズを妨げている。近年の進歩は、浮動小数点(FP)や量子化事前学習重量に適応するためにパラメータ効率のよい微調整(PEFT)技術を用いている。それでも、既存の作業の適応パラメータはFP演算に制限されており、ハードウェアフレンドリなアクセラレーションを妨げている。本研究では、整数型(INT)低ランクパラメータを用いて量子化拡散モデルを適用することにより、効率限界をさらに推し進めるIntLoRAを提案する。整数演算で作業することで、IntLoRAは3つの大きな利点を提供します。 (i)微調整では、予め訓練した重量を定量化し、メモリ使用量を減少させる。 (ii) ストレージでは、事前訓練された重量と低ランクの重量の両方がINT内にあり、ディスクスペースを少なくする。 3)IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前学習重みにマージされ、追加のトレーニング後の量子化がなくなる。大規模な実験により、IntLoRAはバニラのLoRAと同等かそれ以上の性能を達成でき、大幅な効率改善が期待できる。コードは \url{https://github.com/csguoh/IntLoRA} で入手できる。

関連論文リスト

Stabilizing Native Low-Rank LLM Pretraining [24.2079184778031]
低ランク要因化は、トレーニングと推論コストを削減するための有望なルートを提供する。我々は,Large Language Models (LLMs) を低ランクの分解量でスクラッチからトレーニングできることを実証した。提案手法は,過度なオーバーヘッドを伴って,安定したエンドツーエンドのファクタライズトレーニングを可能にする。
論文参考訳（メタデータ） (2026-02-12T21:33:14Z)
Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization [56.5199302532159]
本稿では, アクティベーション誘導型構造正規化フレームワークを提案する。 Astroは内在的に頑丈な重量を積極的に再構成し、高マグニチュードの活性化に対応する重量の降圧を積極的に抑制する。 Astroは競争力が高く、特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
論文参考訳（メタデータ） (2026-02-07T15:50:18Z)
LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [27.07694377337617]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。微調整量子化モデルは、主に低精度量子化重みと高精度適応重みの間のデータ型におけるミスマッチから生じる重要な課題を示す。 LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
論文参考訳（メタデータ） (2025-05-24T14:47:28Z)
Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace [3.7049613588433497]
様々な下流タスクのための微調整大型言語モデル(LLM)が新しいパラダイムとなった。 Low-Rank Adaptation (LoRA)はそのパラメータ効率でよく知られている。我々は新しい方法を提案する。効率の良い分解はDCFTと呼ばれ、部分空間のデコンボリューションを介して行われる。
論文参考訳（メタデータ） (2025-03-03T11:15:50Z)
Minimal Ranks, Maximum Confidence: Parameter-efficient Uncertainty Quantification for LoRA [7.6400146954285315]
Low-Rank Adaptation (LoRA)は、重み更新を低ランク行列に分解することで、大きな言語モデルのパラメータ効率の良い微調整を可能にする。超低次元パラメータ空間において有効な不確実性定量化が達成可能であることを示す新しいパラメータ効率のベイズロラを提案する。
論文参考訳（メタデータ） (2025-02-17T18:46:29Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文参考訳（メタデータ） (2024-10-28T17:14:01Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [9.612860507356702]
後トレーニング量子化(PTQ)は、低ビットのケースで破滅的に失敗する。量子化対応トレーニング(QAT)が不可欠である。拡散モデルのための新しいQATフレームワークであるDilateQuantを提案する。
論文参考訳（メタデータ） (2024-09-22T04:21:29Z)
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs [51.02233412547456]
我々は,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW)と呼ばれる新しいPEFT法を提案する。本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。 LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2024-08-27T14:41:14Z)
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。 2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation [9.445321300673909]
ローランク適応(ローランク適応、LoRA)は、微調整のために凍結した事前学習重量に少数の学習可能なパラメータを付加する顕著な手法である。本稿では,モデル圧縮と微調整を同時に行うProgressive Compression LoRA(PC-LoRA)を紹介する。
論文参考訳（メタデータ） (2024-06-13T13:44:31Z)
Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文参考訳（メタデータ） (2023-12-01T22:03:12Z)
QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。 LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文参考訳（メタデータ） (2023-10-12T05:25:49Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。量子化空間全体にわたって新しい量子化重みを学習する方法を示す。本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文参考訳（メタデータ） (2023-08-10T14:19:58Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文参考訳（メタデータ） (2021-06-17T17:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。