論文の概要: Per-Axis Weight Deltas for Frequent Model Updates
- arxiv url: http://arxiv.org/abs/2512.19720v1
- Date: Tue, 16 Dec 2025 16:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.591731
- Title: Per-Axis Weight Deltas for Frequent Model Updates
- Title(参考訳): 頻繁なモデル更新のための軸ごとの重み付きデルタ
- Authors: Stefan Kuyumdzhiev, Radostin Cholakov,
- Abstract要約: 本稿では,軽量な1軸FP16スケーリング因子とともに,重量差の符号のみを記憶する単純な1ビットデルタ方式を提案する。
この設計は1ビットデルタのコンパクトさを保ちながら、重量次元の変動をより正確に捉えている。
- 参考スコア(独自算出の注目度): 0.4552848064814397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serving many task-specialized LLM variants is often limited by the large size of fine-tuned checkpoints and the resulting cold-start latency. Since fine-tuned weights differ from their base model by relatively small structured residuals, a natural approach is to represent them as compressed deltas. We propose a simple 1-bit delta scheme that stores only the sign of the weight difference together with lightweight per-axis (row/column) FP16 scaling factors, learned from a small calibration set. This design preserves the compactness of 1-bit deltas while more accurately capturing variation across weight dimensions, leading to improved reconstruction quality over scalar alternatives. From a systems perspective, a streamlined loader that transfers packed deltas in a single operation per module reduces cold-start latency and storage overhead, with artifacts several times smaller than a full FP16 checkpoint. The method is drop-in, requires minimal calibration data, and maintains inference efficiency by avoiding dense reconstruction. Our experimental setup and source code are available at https://github.com/kuiumdjiev/Per-Axis-Weight-Deltas-for-Frequent-Model-Updates.
- Abstract(参考訳): 多くのタスク特化LDM変種は、微調整されたチェックポイントの大きいサイズと、結果としてコールドスタートの遅延によって制限されることが多い。
微調整された重量は、比較的小さな構造的残留物によって基礎モデルと異なるため、自然なアプローチはそれらを圧縮されたデルタとして表現することである。
小型キャリブレーションセットから学習した軽量な1軸(ロウ/カラム)FP16スケーリング因子とともに、重量差の符号のみを記憶する単純な1ビットデルタ方式を提案する。
この設計は1ビットデルタのコンパクトさを保ちながら、より正確に重量次元の変動を捉え、スカラー代替品よりも再現性を向上させる。
システムの観点からは、モジュール毎にひとつの操作で充填されたデルタを転送する合理化ローダは、フルFP16チェックポイントの何倍も小さなアーティファクトで、コールドスタートのレイテンシとストレージオーバーヘッドを低減する。
この方法はドロップインであり、最小限のキャリブレーションデータを必要とし、密集した再構成を回避して推論効率を維持する。
実験的なセットアップとソースコードはhttps://github.com/kuiumdjiev/Per-Axis-Weight-Deltas-for-Frequent-Model-Updatesで公開しています。
関連論文リスト
- Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - Delta-SVD: Efficient Compression for Personalized Text-to-Image Models [25.0585375727713]
本研究では,DreamBoothファインチューニングによるパラメータ重み付け更新をターゲットとした,ポストホックなトレーニング不要圧縮手法であるDelta-SVDを提案する。
Delta-SVD は,CLIP スコア,SSIM,FID で測定された生成品質の低下を無視して,かなりの圧縮を実現することを示す。
論文 参考訳(メタデータ) (2025-08-23T01:21:46Z) - Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression [57.71917274869577]
UltraDeltaはデータフリーのデルタ圧縮パイプラインで、超高圧縮と強力なパフォーマンスを実現する。
UltraDeltaは、冗長性を最小化し、情報を最大化し、層間、層内、大域的な寸法で性能を安定させるように設計されている。
論文 参考訳(メタデータ) (2025-05-19T10:37:22Z) - Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform [51.29604910007176]
従来のJPEG画像圧縮にインスパイアされた最初のデータフリーデルタ圧縮手法であるDelta-DCTを導入し、離散コサイン変換(DCT)を利用する。
提案したデルタ-DCTはトレーニングやデータキャリブレーションを一切必要とせず、1ビット相当のデルタ圧縮比で元の微調整モデルに匹敵する性能を達成し、(1)最近7Bから13Bに異なるサイズのLSMを新たにリリースし、(2)RoBERTaやT5モデルを含む比較的小さな言語モデル、(3)視覚トランスフォーマーモデル、(4)マルチモーダルBEiT-3モデルなど様々なモデルで達成した。
論文 参考訳(メタデータ) (2025-03-09T16:03:48Z) - Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。
SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。
SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文 参考訳(メタデータ) (2024-12-23T08:40:08Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAは、整数型低ランクパラメータを持つ量子化拡散モデルを適用し、チューニング中に推論効率を含める。
推論中、IntLoRA重みはPTQなしで直接量子化された下流重みを得るために、シームレスに事前訓練された重みにマージすることができる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z) - OpenDelta: A Plug-and-play Library for Parameter-efficient Adaptation of
Pre-trained Models [81.7855202178564]
我々は,様々なデルタチューニング手法のプラグアンドプレイ実装を提供することで,制限を克服するオープンソースライブラリであるOpenDeltaを提案する。
我々の新しい技術は、バックボーン PTM のコードを変更する必要をなくし、OpenDelta を異なる新しい PTM と互換性を持たせる。
論文 参考訳(メタデータ) (2023-07-05T16:30:14Z) - Robust Weight Signatures: Gaining Robustness as Easy as Patching
Weights? [81.77457373726736]
一つのタイプの分散シフトに対して回復力を持つように訓練されたロバストモデルを考えると、モデルの重みに「ロバスト性」がエンコードされているのはなぜか?
クリーンデータでトレーニングされたモデルと事前抽出したRWSを併用した,最小限のモデルロバスト性「パッチング」フレームワークを提案する。
このように、モデルにある種のロバスト性を注入すると、対応するRWSをその重みに直接追加する。
論文 参考訳(メタデータ) (2023-02-24T06:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。