論文の概要: Mixed-precision Supernet Training from Vision Foundation Models using Low Rank Adapter
- arxiv url: http://arxiv.org/abs/2403.20080v1
- Date: Fri, 29 Mar 2024 09:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:04:00.965211
- Title: Mixed-precision Supernet Training from Vision Foundation Models using Low Rank Adapter
- Title(参考訳): 低ランク適応器を用いた視覚基礎モデルからの混合精度スーパーネットトレーニング
- Authors: Yuiko Sakuma, Masakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi,
- Abstract要約: 混合精度量子化スーパーネットに視覚基礎モデル(VFM)を微調整することを提案する。
この目的のために、スーパーネットベースのニューラルアーキテクチャサーチ(NAS)を採用することができる。
NASはスーパーネットをトレーニングし、任意のハードウェア予算内で抽出することができる。
- 参考スコア(独自算出の注目度): 0.471858286267785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compression of large and performant vision foundation models (VFMs) into arbitrary bit-wise operations (BitOPs) allows their deployment on various hardware. We propose to fine-tune a VFM to a mixed-precision quantized supernet. The supernet-based neural architecture search (NAS) can be adopted for this purpose, which trains a supernet, and then subnets within arbitrary hardware budgets can be extracted. However, existing methods face difficulties in optimizing the mixed-precision search space and incurring large memory costs during training. To tackle these challenges, first, we study the effective search space design for fine-tuning a VFM by comparing different operators (such as resolution, feature size, width, depth, and bit-widths) in terms of performance and BitOPs reduction. Second, we propose memory-efficient supernet training using a low-rank adapter (LoRA) and a progressive training strategy. The proposed method is evaluated for the recently proposed VFM, Segment Anything Model, fine-tuned on segmentation tasks. The searched model yields about a 95% reduction in BitOPs without incurring performance degradation.
- Abstract(参考訳): 大規模かつ高性能な視覚基盤モデル(VFM)を任意のビット演算(BitOP)に圧縮することで、様々なハードウェアへの展開が可能になる。
混合精度量子化スーパーネットにVFMを微調整することを提案する。
この目的のために、スーパーネットベースのニューラルアーキテクチャサーチ(NAS)を採用することができ、スーパーネットをトレーニングし、任意のハードウェア予算内でサブネットを抽出することができる。
しかし、既存の手法では、混合精度探索空間の最適化と、トレーニング中に大きなメモリコストが発生するという困難に直面している。
これらの課題に対処するために、まず、各演算子(解像度、特徴サイズ、幅、深さ、ビット幅など)を、性能およびビットOP削減の観点から比較することにより、VFMを微調整するための効率的な検索空間設計について検討する。
次に,ローランクアダプタ(LoRA)とプログレッシブトレーニング戦略を用いたメモリ効率の高いスーパーネットトレーニングを提案する。
提案手法は,最近提案された VFM, Segment Anything Model に対して, セグメンテーションタスクを微調整して評価する。
探索されたモデルでは、パフォーマンス劣化を招くことなく、約95%のBitOPが減少する。
関連論文リスト
- Dynamic Encoder Size Based on Data-Driven Layer-wise Pruning for Speech Recognition [24.71497121634708]
可変サイズモデルは、異なるハードウェアおよび/またはアプリケーション制約下でASRシステムをデプロイするためにしばしば必要とされる。
動的エンコーダ・サイズ・アプローチを提案する。この手法は1つのスーパーネット内の複数のパフォーマンスモデルをスクラッチからトレーニングする。
論文 参考訳(メタデータ) (2024-07-10T08:35:21Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models [30.758876520227666]
TODMは、ハードウェアフレンドリーなオンデバイスASRモデルの多くのサイズを、単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための、新しいアプローチである。
我々は,TODMスーパーネットの結果を改善するために,新しい3つの手法の組み合わせを導入する。
結果から,TODMスーパーネットは単語誤り率(WER)において,最大3%の精度で手動調整モデルの性能に適合するか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:47:55Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。
具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。
実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文 参考訳(メタデータ) (2022-05-30T15:26:52Z) - Generalizing Few-Shot NAS with Gradient Matching [165.5690495295074]
One-Shotメソッドは、1つのスーパーネットをトレーニングし、ウェイトシェアリングを通じて検索空間内の全てのアーキテクチャのパフォーマンスを近似する。
Few-Shot NASは、One-Shotスーパーネットを複数のサブスーパーネットに分割することで、ウェイトシェアリングのレベルを下げる。
Few-Shotよりも優れており、派生したアーキテクチャの精度という点では、従来の同等の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-29T03:06:16Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Lightweight Residual Densely Connected Convolutional Neural Network [18.310331378001397]
畳み込みニューラルネットワークの深い監督, 効率的な勾配流, 特徴再利用能力を保証するために, 軽量な高密度連結ブロックを提案する。
提案手法は,特別なハードウェア・ソフトウェア機器を使わずに,トレーニングと推論のコストを低減させる。
論文 参考訳(メタデータ) (2020-01-02T17:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。