論文の概要: Vision Models Can Be Efficiently Specialized via Few-Shot Task-Aware
Compression
- arxiv url: http://arxiv.org/abs/2303.14409v1
- Date: Sat, 25 Mar 2023 09:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:51:38.622918
- Title: Vision Models Can Be Efficiently Specialized via Few-Shot Task-Aware
Compression
- Title(参考訳): Few-Shot Task-Aware Compressionによる視覚モデルの構築
- Authors: Denis Kuznedelev, Soroush Tabesh, Kimia Noorbakhsh, Elias Frantar,
Sara Beery, Eldar Kurtic, Dan Alistarh
- Abstract要約: 近年のビジョンアーキテクチャと自己教師型トレーニング手法は、極めて正確で汎用的なビジョンモデルを実現するが、膨大なパラメータと計算コストが伴う。
本稿では,大規模なジェネラリストモデルを高精度かつ効率的なスペシャリストに圧縮するために,Few-Shot Task-Aware Compression (TACO)を提案する。
TACOを高精度のResNet、ViT/DeiT、ConvNeXtモデルで検証する。
- 参考スコア(独自算出の注目度): 21.32987466213167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent vision architectures and self-supervised training methods enable
vision models that are extremely accurate and general, but come with massive
parameter and computational costs. In practical settings, such as camera traps,
users have limited resources, and may fine-tune a pretrained model on (often
limited) data from a small set of specific categories of interest. These users
may wish to make use of modern, highly-accurate models, but are often
computationally constrained. To address this, we ask: can we quickly compress
large generalist models into accurate and efficient specialists? For this, we
propose a simple and versatile technique called Few-Shot Task-Aware Compression
(TACO). Given a large vision model that is pretrained to be accurate on a broad
task, such as classification over ImageNet-22K, TACO produces a smaller model
that is accurate on specialized tasks, such as classification across vehicle
types or animal species. Crucially, TACO works in few-shot fashion, i.e. only a
few task-specific samples are used, and the procedure has low computational
overheads. We validate TACO on highly-accurate ResNet, ViT/DeiT, and ConvNeXt
models, originally trained on ImageNet, LAION, or iNaturalist, which we
specialize and compress to a diverse set of "downstream" subtasks. TACO can
reduce the number of non-zero parameters in existing models by up to 20x
relative to the original models, leading to inference speedups of up to
3$\times$, while remaining accuracy-competitive with the uncompressed models on
the specialized tasks.
- Abstract(参考訳): 近年のビジョンアーキテクチャと自己教師型トレーニング手法は、極めて正確で汎用的なビジョンモデルを実現するが、膨大なパラメータと計算コストが伴う。
カメラトラップのような実用的な設定では、ユーザーは限られたリソースを持ち、特定のカテゴリの小さなセットから事前訓練されたデータ(しばしば制限された)を微調整することができる。
これらのユーザーは、近代的で正確なモデルを使いたがるかもしれないが、しばしば計算的に制約を受ける。
大規模なジェネラリストモデルを、正確で効率的な専門家に素早く圧縮できるか?
そこで本研究では,Few-Shot Task-Aware Compression (TACO) と呼ばれるシンプルで汎用的な手法を提案する。
ImageNet-22K 上の分類のような広いタスクで正確であるように事前訓練された大きな視覚モデルを考えると、TACO は車種や動物種にまたがる分類のような特定のタスクで正確である小さなモデルを生成する。
重要なことに、TACOは、少数のタスク固有のサンプルしか使用せず、計算オーバーヘッドも少なく、数ショットで機能する。
TACOを高精度のResNet, ViT/DeiT, ConvNeXtモデルで検証し,ImageNet, LAION, iNaturalistでトレーニングした。
TACOは、既存のモデルにおけるゼロでないパラメータの数を、オリジナルのモデルと比較して最大20倍に減らし、推論速度が最大3$\times$に向上する一方で、特殊タスク上の非圧縮モデルと精度的に競合する。
関連論文リスト
- Tiny Models are the Computational Saver for Large Models [1.8350044465969415]
本稿では,TinySaverについて紹介する。TinySaverは,大規模モデルを適応的に置き換えるために小さなモデルを用いる,早期に出現する動的モデル圧縮手法である。
この手法をImageNet-1k分類で評価した結果,最大90%の演算数を削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-26T14:14:30Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Herd: Using multiple, smaller LLMs to match the performances of proprietary, large LLMs via an intelligent composer [1.3108652488669732]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文 参考訳(メタデータ) (2023-02-28T17:13:14Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Compressed Object Detection [15.893905488328283]
我々は,不必要なモデル接続を捨てる圧縮技術であるプルーニングを拡張し,オブジェクト検出作業のための重み共有技術を提案する。
我々は、性能を損なうことなく、最先端のオブジェクト検出モデルを30.0%圧縮することができる。
論文 参考訳(メタデータ) (2021-02-04T21:32:56Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。