論文の概要: Optimal Singular Damage: Efficient LLM Inference in Low Storage Regimes
- arxiv url: http://arxiv.org/abs/2511.02681v1
- Date: Tue, 04 Nov 2025 16:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.100055
- Title: Optimal Singular Damage: Efficient LLM Inference in Low Storage Regimes
- Title(参考訳): 最適特異損傷:低貯蔵レジームにおける効率的なLLM推論
- Authors: Mohammadsajad Alipour, Mohammad Mohammadi Amiri,
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションでますます普及している。
本稿では、微調整後の事前学習モデルにおけるパラメータ更新の効率的な保存に焦点を当てた。
- 参考スコア(独自算出の注目度): 5.100622189286672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly prevalent across diverse applications. However, their enormous size limits storage and processing capabilities to a few well-resourced stakeholders. As a result, most applications rely on pre-trained LLMs, fine-tuned for specific tasks. However, even storing the fine-tuned versions of these models remains a significant challenge due to the wide range of tasks they address. Recently, studies show that fine-tuning these models primarily affects a small fraction of parameters, highlighting the need for more efficient storage of fine-tuned models. This paper focuses on efficient storage of parameter updates in pre-trained models after fine-tuning. To address this challenge, we leverage the observation that fine-tuning updates are both low-rank and sparse, which can be utilized for storage efficiency. However, using only low-rank approximation or sparsification may discard critical singular components that enhance model expressivity. We first observe that given the same memory budget, sparsified low-rank approximations with larger ranks outperform standard low-rank approximations with smaller ranks. Building on this, we propose our method, optimal singular damage, that selectively sparsifies low-rank approximated updates by leveraging the interleaved importance of singular vectors, ensuring that the most impactful components are retained. We demonstrate through extensive experiments that our proposed methods lead to significant storage efficiency and superior accuracy within the same memory budget compared to employing the low-rank approximation or sparsification individually.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションでますます普及している。
しかし、その巨大なサイズは、ストレージと処理能力を、ある程度の利害関係者に限定している。
その結果、ほとんどのアプリケーションは、特定のタスクのために微調整された、事前訓練されたLLMに依存している。
しかし、これらのモデルの細調整されたバージョンを格納することさえも、それらが対処する幅広いタスクのために大きな課題である。
近年の研究では、これらのモデルの微調整が少数のパラメータに大きく影響していることが示されており、より効率的な微調整モデルの保存の必要性が強調されている。
本稿では、微調整後の事前学習モデルにおけるパラメータ更新の効率的な保存に焦点を当てた。
この課題に対処するために、我々は、微調整更新は低ランクとスパースの両方であり、ストレージ効率に利用できるという観察を活用する。
しかし、低ランク近似やスパーシフィケーションのみを用いることで、モデル表現性を高める重要な特異成分を排除できる。
我々はまず、同じメモリ予算が与えられた場合、より大きなランクの低ランク近似が、より少ないランクの標準的な低ランク近似よりも優れていることを観察した。
そこで本研究では, 特異ベクトルのインターリーブの重要性を利用して, 低ランク近似更新を選択的にスペーシングし, もっとも影響の大きい成分を確実に保持する最適特異損傷法を提案する。
提案手法は,低ランク近似やスペーサー化を個別に用いた場合と比較して,記憶効率が向上し,同じメモリ予算内で精度が向上することを示す。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Vocabulary-level Memory Efficiency for Language Model Fine-tuning [36.1039389951318]
微調整中,語彙のかなりの割合が未使用であることが判明した。
本稿では,メモリ使用量を最小限に抑えるため,この発見を利用したシンプルで効果的な手法を提案する。
我々の手法は、より効率的な計算資源の利用を可能にしながら、下流のタスク性能に影響を与えない。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。