論文の概要: Efficient Storage of Fine-Tuned Models via Low-Rank Approximation of
Weight Residuals
- arxiv url: http://arxiv.org/abs/2305.18425v1
- Date: Sun, 28 May 2023 21:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:12:47.313244
- Title: Efficient Storage of Fine-Tuned Models via Low-Rank Approximation of
Weight Residuals
- Title(参考訳): 重み残差の低ランク近似による微調整モデルの効率的な保存
- Authors: Simo Ryu, Seunghyun Seo, Jaejun Yoo
- Abstract要約: 重量残差の低ランク特性を利用した微調整モデルの効率的な保存法を提案する。
実験の結果,様々なタスクやモダリティのパフォーマンスを保ちながらメモリフットプリントを大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 10.84268596006783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present an efficient method for storing fine-tuned models
by leveraging the low-rank properties of weight residuals. Our key observation
is that weight residuals in large overparameterized models exhibit even
stronger low-rank characteristics. Based on this insight, we propose Efficient
Residual Encoding (ERE), a novel approach that achieves efficient storage of
fine-tuned model weights by approximating the low-rank weight residuals.
Furthermore, we analyze the robustness of weight residuals and push the limit
of storage efficiency by utilizing additional quantization and layer-wise rank
allocation. Our experimental results demonstrate that our method significantly
reduces memory footprint while preserving performance in various tasks and
modalities. We release our code.
- Abstract(参考訳): 本稿では,重量残差の低ランク特性を活かし,微調整モデルの効率的な保存法を提案する。
我々の重要な観察は、大きな過パラメータモデルの重量残差がより強い低ランク特性を示すことである。
この知見に基づき,低位重み残差を近似することにより,微調整モデル重みの効率的な保存を実現する新しい手法である効率的な残差符号化(ere)を提案する。
さらに, 重み残差のロバスト性を分析し, 付加量子化と層別ランク割当てを利用して, 貯蔵効率の限界を押し上げる。
実験の結果,様々なタスクやモダリティのパフォーマンスを保ちながらメモリフットプリントを大幅に削減できることがわかった。
コードをリリースします。
関連論文リスト
- Minimal Ranks, Maximum Confidence: Parameter-efficient Uncertainty Quantification for LoRA [7.6400146954285315]
Low-Rank Adaptation (LoRA)は、重み更新を低ランク行列に分解することで、大きな言語モデルのパラメータ効率の良い微調整を可能にする。
超低次元パラメータ空間において有効な不確実性定量化が達成可能であることを示す新しいパラメータ効率のベイズロラを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:46:29Z) - Taming Sensitive Weights : Noise Perturbation Fine-tuning for Robust LLM Quantization [5.718172547021947]
量子化誤差に対する感度重みの影響を抑えるため,NPFT(Noth Perturbation Fine-tuning)を提案する。
NPFTは、外周重量を同定し、外周重量のランダムな摂動を、PEFT最適化によるモデルとして追加する。
OPTおよびLLaMAモデルに適用すると、NPFT法は均一および非一様量子化器の安定な性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-08T21:46:22Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。