論文の概要: Per-Axis Weight Deltas for Frequent Model Updates
- arxiv url: http://arxiv.org/abs/2512.19720v1
- Date: Tue, 16 Dec 2025 16:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.591731
- Title: Per-Axis Weight Deltas for Frequent Model Updates
- Title(参考訳): 頻繁なモデル更新のための軸ごとの重み付きデルタ
- Authors: Stefan Kuyumdzhiev, Radostin Cholakov,
- Abstract要約: 本稿では,軽量な1軸FP16スケーリング因子とともに,重量差の符号のみを記憶する単純な1ビットデルタ方式を提案する。
この設計は1ビットデルタのコンパクトさを保ちながら、重量次元の変動をより正確に捉えている。
- 参考スコア(独自算出の注目度): 0.4552848064814397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serving many task-specialized LLM variants is often limited by the large size of fine-tuned checkpoints and the resulting cold-start latency. Since fine-tuned weights differ from their base model by relatively small structured residuals, a natural approach is to represent them as compressed deltas. We propose a simple 1-bit delta scheme that stores only the sign of the weight difference together with lightweight per-axis (row/column) FP16 scaling factors, learned from a small calibration set. This design preserves the compactness of 1-bit deltas while more accurately capturing variation across weight dimensions, leading to improved reconstruction quality over scalar alternatives. From a systems perspective, a streamlined loader that transfers packed deltas in a single operation per module reduces cold-start latency and storage overhead, with artifacts several times smaller than a full FP16 checkpoint. The method is drop-in, requires minimal calibration data, and maintains inference efficiency by avoiding dense reconstruction. Our experimental setup and source code are available at https://github.com/kuiumdjiev/Per-Axis-Weight-Deltas-for-Frequent-Model-Updates.
- Abstract(参考訳): 多くのタスク特化LDM変種は、微調整されたチェックポイントの大きいサイズと、結果としてコールドスタートの遅延によって制限されることが多い。
微調整された重量は、比較的小さな構造的残留物によって基礎モデルと異なるため、自然なアプローチはそれらを圧縮されたデルタとして表現することである。
小型キャリブレーションセットから学習した軽量な1軸(ロウ/カラム)FP16スケーリング因子とともに、重量差の符号のみを記憶する単純な1ビットデルタ方式を提案する。
この設計は1ビットデルタのコンパクトさを保ちながら、より正確に重量次元の変動を捉え、スカラー代替品よりも再現性を向上させる。
システムの観点からは、モジュール毎にひとつの操作で充填されたデルタを転送する合理化ローダは、フルFP16チェックポイントの何倍も小さなアーティファクトで、コールドスタートのレイテンシとストレージオーバーヘッドを低減する。
この方法はドロップインであり、最小限のキャリブレーションデータを必要とし、密集した再構成を回避して推論効率を維持する。
実験的なセットアップとソースコードはhttps://github.com/kuiumdjiev/Per-Axis-Weight-Deltas-for-Frequent-Model-Updatesで公開しています。
関連論文リスト
- Delta-SVD: Efficient Compression for Personalized Text-to-Image Models [25.0585375727713]
本研究では,DreamBoothファインチューニングによるパラメータ重み付け更新をターゲットとした,ポストホックなトレーニング不要圧縮手法であるDelta-SVDを提案する。
Delta-SVD は,CLIP スコア,SSIM,FID で測定された生成品質の低下を無視して,かなりの圧縮を実現することを示す。
論文 参考訳(メタデータ) (2025-08-23T01:21:46Z) - Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform [51.29604910007176]
従来のJPEG画像圧縮にインスパイアされた最初のデータフリーデルタ圧縮手法であるDelta-DCTを導入し、離散コサイン変換(DCT)を利用する。
提案したデルタ-DCTはトレーニングやデータキャリブレーションを一切必要とせず、1ビット相当のデルタ圧縮比で元の微調整モデルに匹敵する性能を達成し、(1)最近7Bから13Bに異なるサイズのLSMを新たにリリースし、(2)RoBERTaやT5モデルを含む比較的小さな言語モデル、(3)視覚トランスフォーマーモデル、(4)マルチモーダルBEiT-3モデルなど様々なモデルで達成した。
論文 参考訳(メタデータ) (2025-03-09T16:03:48Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAは、整数型低ランクパラメータを持つ量子化拡散モデルを適用し、チューニング中に推論効率を含める。
推論中、IntLoRA重みはPTQなしで直接量子化された下流重みを得るために、シームレスに事前訓練された重みにマージすることができる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。