論文の概要: BALF: Budgeted Activation-Aware Low-Rank Factorization for Fine-Tuning-Free Model Compression
- arxiv url: http://arxiv.org/abs/2509.25136v1
- Date: Mon, 29 Sep 2025 17:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.184086
- Title: BALF: Budgeted Activation-Aware Low-Rank Factorization for Fine-Tuning-Free Model Compression
- Title(参考訳): BALF:細調整不要モデル圧縮のための予算化活性化を考慮した低ランク因子化
- Authors: David González Martínez,
- Abstract要約: BALFは、微調整なしでモデルを圧縮するための効率的なパイプラインである。
微調整のない体制において優れた結果が得られることを示す。
例えば、BALF は ResNeXt-101 上の FLOP を 45% 削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network compression techniques typically require expensive fine-tuning or search procedures, rendering them impractical on commodity hardware. Inspired by recent LLM compression research, we present a general activation-aware factorization framework that can be applied to a broad range of layers. Moreover, we introduce a scalable budgeted rank allocator that allows flexible control over compression targets (e.g., retaining 50% of parameters) with no overhead. Together, these components form BALF, an efficient pipeline for compressing models without fine-tuning. We demonstrate its effectiveness across multiple scales and architectures, from ResNet-20 on CIFAR-10 to ResNeXt-101 and vision transformers on ImageNet, and show that it achieves excellent results in the fine-tuning-free regime. For instance, BALF reduces FLOPs on ResNeXt-101 by 45% with only a 1-percentage-point top-1 accuracy drop.
- Abstract(参考訳): ニューラルネットワーク圧縮技術は通常、高価な微調整や探索手順を必要とし、コモディティハードウェアでは実用的ではない。
近年のLLM圧縮研究に触発されて,幅広い層に適用可能な,アクティベーション対応の一般的な因子化フレームワークを提案する。
さらに,圧縮目標(パラメータの50%を保持するなど)に対するフレキシブルな制御をオーバヘッドなしで実現する,スケーラブルな予算割当アロケータも導入する。
これらのコンポーネントは、微調整なしでモデルを圧縮するための効率的なパイプラインであるBALFを形成する。
CIFAR-10のResNet-20やImageNetのResNeXt-101やビジョントランスフォーマーなど、複数のスケールやアーキテクチャで有効性を示し、微調整不要なシステムにおいて優れた結果が得られることを示す。
例えば、BALF は ResNeXt-101 上の FLOP を 45% 削減する。
関連論文リスト
- Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - HALOC: Hardware-Aware Automatic Low-Rank Compression for Compact Neural
Networks [17.769734781490143]
ハードウェア対応の低ランク自動圧縮フレームワークであるHALOCを提案する。
アーキテクチャ検索の観点からの自動ランク選択を解釈することにより、エンドツーエンドのソリューションを開発する。
異なるデータセットとハードウェアプラットフォームに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-20T01:57:34Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Sharpness-aware Quantization for Deep Neural Networks [45.150346855368]
シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z) - Only Train Once: A One-Shot Neural Network Training And Pruning
Framework [31.959625731943675]
構造化プルーニング(Structured pruning)は、リソース制約のあるデバイスにディープニューラルネットワーク(DNN)をデプロイする際に一般的に使用されるテクニックである。
我々は,DNNが競争性能と,OTO(Not-Train-Once)によるFLOPの大幅な削減に敏感なフレームワークを提案する。
OTOには2つのキーが含まれている: (i) DNNのパラメータをゼロ不変群に分割し、出力に影響を与えることなくゼロ群をプルークすることができる; (ii)ゼロ群をプロモートするために、構造化画像最適化アルゴリズムであるHalf-Space Projected (HSPG)を定式化する。
OTOの有効性を示すために、私たちはトレーニングとトレーニングを行います。
論文 参考訳(メタデータ) (2021-07-15T17:15:20Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。