論文の概要: Efficient Storage of Fine-Tuned Models via Low-Rank Approximation of
Weight Residuals
- arxiv url: http://arxiv.org/abs/2305.18425v1
- Date: Sun, 28 May 2023 21:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:12:47.313244
- Title: Efficient Storage of Fine-Tuned Models via Low-Rank Approximation of
Weight Residuals
- Title(参考訳): 重み残差の低ランク近似による微調整モデルの効率的な保存
- Authors: Simo Ryu, Seunghyun Seo, Jaejun Yoo
- Abstract要約: 重量残差の低ランク特性を利用した微調整モデルの効率的な保存法を提案する。
実験の結果,様々なタスクやモダリティのパフォーマンスを保ちながらメモリフットプリントを大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 10.84268596006783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present an efficient method for storing fine-tuned models
by leveraging the low-rank properties of weight residuals. Our key observation
is that weight residuals in large overparameterized models exhibit even
stronger low-rank characteristics. Based on this insight, we propose Efficient
Residual Encoding (ERE), a novel approach that achieves efficient storage of
fine-tuned model weights by approximating the low-rank weight residuals.
Furthermore, we analyze the robustness of weight residuals and push the limit
of storage efficiency by utilizing additional quantization and layer-wise rank
allocation. Our experimental results demonstrate that our method significantly
reduces memory footprint while preserving performance in various tasks and
modalities. We release our code.
- Abstract(参考訳): 本稿では,重量残差の低ランク特性を活かし,微調整モデルの効率的な保存法を提案する。
我々の重要な観察は、大きな過パラメータモデルの重量残差がより強い低ランク特性を示すことである。
この知見に基づき,低位重み残差を近似することにより,微調整モデル重みの効率的な保存を実現する新しい手法である効率的な残差符号化(ere)を提案する。
さらに, 重み残差のロバスト性を分析し, 付加量子化と層別ランク割当てを利用して, 貯蔵効率の限界を押し上げる。
実験の結果,様々なタスクやモダリティのパフォーマンスを保ちながらメモリフットプリントを大幅に削減できることがわかった。
コードをリリースします。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Robust low-rank training via approximate orthonormal constraints [2.519906683279153]
低ランク行列多様体上でネットワークの重みを維持する頑健な低ランク学習アルゴリズムを導入する。
その結果, モデル精度を損なうことなく, トレーニングコストと推論コストを低減し, 良好な条件設定を実現し, 対向ロバスト性を向上する。
論文 参考訳(メタデータ) (2023-06-02T12:22:35Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Continuous Weight Balancing [0.0]
高度に不均衡あるいは歪んだ特徴を有する問題に対して,試料重みを簡易に選択する手法を提案する。
推定ソースと指定されたターゲット分布間の転送関数からサンプルウェイトを導出します。
本手法は回帰処理と分類処理の両方において非重み付きモデルと離散重み付きモデルの両方に優れる。
論文 参考訳(メタデータ) (2021-03-30T18:03:12Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。