Fugu-MT 論文翻訳(概要): Efficient Storage of Fine-Tuned Models via Low-Rank Approximation of Weight Residuals

論文の概要: Efficient Storage of Fine-Tuned Models via Low-Rank Approximation of Weight Residuals

arxiv url: http://arxiv.org/abs/2305.18425v1
Date: Sun, 28 May 2023 21:10:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 21:12:47.313244
Title: Efficient Storage of Fine-Tuned Models via Low-Rank Approximation of Weight Residuals
Title（参考訳）: 重み残差の低ランク近似による微調整モデルの効率的な保存
Authors: Simo Ryu, Seunghyun Seo, Jaejun Yoo
Abstract要約: 重量残差の低ランク特性を利用した微調整モデルの効率的な保存法を提案する。実験の結果,様々なタスクやモダリティのパフォーマンスを保ちながらメモリフットプリントを大幅に削減できることがわかった。
参考スコア（独自算出の注目度）: 10.84268596006783
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present an efficient method for storing fine-tuned models by leveraging the low-rank properties of weight residuals. Our key observation is that weight residuals in large overparameterized models exhibit even stronger low-rank characteristics. Based on this insight, we propose Efficient Residual Encoding (ERE), a novel approach that achieves efficient storage of fine-tuned model weights by approximating the low-rank weight residuals. Furthermore, we analyze the robustness of weight residuals and push the limit of storage efficiency by utilizing additional quantization and layer-wise rank allocation. Our experimental results demonstrate that our method significantly reduces memory footprint while preserving performance in various tasks and modalities. We release our code.
Abstract（参考訳）: 本稿では,重量残差の低ランク特性を活かし,微調整モデルの効率的な保存法を提案する。我々の重要な観察は、大きな過パラメータモデルの重量残差がより強い低ランク特性を示すことである。この知見に基づき,低位重み残差を近似することにより,微調整モデル重みの効率的な保存を実現する新しい手法である効率的な残差符号化(ere)を提案する。さらに, 重み残差のロバスト性を分析し, 付加量子化と層別ランク割当てを利用して, 貯蔵効率の限界を押し上げる。実験の結果,様々なタスクやモダリティのパフォーマンスを保ちながらメモリフットプリントを大幅に削減できることがわかった。コードをリリースします。

関連論文リスト

Minimal Ranks, Maximum Confidence: Parameter-efficient Uncertainty Quantification for LoRA [7.6400146954285315]
Low-Rank Adaptation (LoRA)は、重み更新を低ランク行列に分解することで、大きな言語モデルのパラメータ効率の良い微調整を可能にする。超低次元パラメータ空間において有効な不確実性定量化が達成可能であることを示す新しいパラメータ効率のベイズロラを提案する。
論文参考訳（メタデータ） (2025-02-17T18:46:29Z)
Taming Sensitive Weights : Noise Perturbation Fine-tuning for Robust LLM Quantization [5.718172547021947]
量子化誤差に対する感度重みの影響を抑えるため,NPFT(Noth Perturbation Fine-tuning)を提案する。 NPFTは、外周重量を同定し、外周重量のランダムな摂動を、PEFT最適化によるモデルとして追加する。 OPTおよびLLaMAモデルに適用すると、NPFT法は均一および非一様量子化器の安定な性能向上を実現する。
論文参考訳（メタデータ） (2024-12-08T21:46:22Z)
Generative Feature Training of Thin 2-Layer Networks [0.0]
正方形損失と小さなデータセットに基づく隠れ重みの少ない2層ニューラルネットワークによる関数近似を考察する。高度に隠蔽されたモデルとして、学習された分布提案からのサンプルを用いて隠れ重みを利用する。潜時空間における勾配に基づく後処理により, 試料重量を改良する。
論文参考訳（メタデータ） (2024-11-11T10:32:33Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。 IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文参考訳（メタデータ） (2024-10-29T05:50:17Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文参考訳（メタデータ） (2023-07-26T08:25:46Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。