論文の概要: CrAFT: Compression-Aware Fine-Tuning for Efficient Visual Task
Adaptation
- arxiv url: http://arxiv.org/abs/2305.04526v2
- Date: Sun, 9 Jul 2023 00:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 18:23:57.576563
- Title: CrAFT: Compression-Aware Fine-Tuning for Efficient Visual Task
Adaptation
- Title(参考訳): CrAFT: 効率的な視覚タスク適応のための圧縮対応ファインチューニング
- Authors: Jung Hwan Heo, Seyedarmin Azizi, Arash Fayyazi, Massoud Pedram
- Abstract要約: プルーニングや量子化といったポストトレーニング後の圧縮技術は、デプロイメントコストの削減に役立つ。
本稿では,ネットワーク圧縮を効果的に訓練するフレームワークCrAFTを提案する。
CrAFTアプローチは、単一のGPUで数分または数時間以内に微調整を行うため、無視可能なトレーニングオーバーヘッドを追加する。
- 参考スコア(独自算出の注目度): 3.043665249713003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning has become a popular task adaptation method in the era of
foundation models. However, many foundation models require large storage and
computing resources, which makes off-the-shelf deployment impractical.
Post-training compression techniques such as pruning and quantization can help
lower deployment costs. Unfortunately, the resulting performance degradation
limits the usability and benefits of such techniques. To close this performance
gap, we propose CrAFT, a simple fine-tuning framework that enables effective
post-training network compression. In CrAFT, users simply employ the default
fine-tuning schedule along with sharpness minimization objective,
simultaneously facilitating task adaptation and compression-friendliness.
Contrary to the conventional sharpness minimization techniques, which are
applied during pretraining, the CrAFT approach adds negligible training
overhead as fine-tuning is done in under a couple of minutes or hours with a
single GPU. The effectiveness of CrAFT, which is a general-purpose tool that
can significantly boost one-shot pruning and post-training quantization, is
demonstrated on both convolution-based and attention-based vision foundation
models on a variety of target tasks. The code will be made publicly available.
- Abstract(参考訳): 転移学習は基礎モデルの時代において一般的なタスク適応手法となった。
しかし、多くのファンデーションモデルは大規模なストレージとコンピューティングリソースを必要としている。
プルーニングや量子化といったポストトレーニング圧縮技術は、デプロイメントコストの削減に役立つ。
残念ながら、結果として生じるパフォーマンス劣化は、そのようなテクニックのユーザビリティとメリットを制限します。
この性能ギャップを埋めるために,ネットワーク圧縮を効果的に学習できる簡易な微調整フレームワークCrAFTを提案する。
CrAFTでは、ユーザーは単にデフォルトの微調整スケジュールとシャープネスの最小化目標を使い、同時にタスク適応と圧縮親和性を容易にする。
事前トレーニング中に適用される従来のシャープネス最小化技術とは対照的に、CrAFTアプローチでは、単一のGPUで数分または数時間で微調整を行うため、無視可能なトレーニングオーバーヘッドが加わる。
汎用ツールであるCrAFTの有効性は,多種多様な目標タスクにおいて,畳み込みに基づく視覚基盤モデルと注意に基づく視覚基盤モデルの両方で実証された。
コードは公開される予定だ。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - Optimal Brain Compression: A Framework for Accurate Post-Training
Quantization and Pruning [29.284147465251685]
重み付けと量子化の両方を統一した環境でカバーする新しい圧縮フレームワークを提案する。
既存のポストトレーニング手法の圧縮精度トレードオフにより, 大幅な改善が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-24T14:33:35Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Practical Network Acceleration with Tiny Sets [38.742142493108744]
ネットワーク圧縮は、ディープニューラルネットワークの推論を加速するのに有効である。
しかし、精度の低下から回復するためには、トレーニングデータをすべて微調整する必要があることが多い。
そこで本研究では, PRACTISEという手法を用いて, トレーニング画像の小さなセットでネットワークを高速化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T05:04:38Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。