論文の概要: Class-Incremental Exemplar Compression for Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2303.14042v1
- Date: Fri, 24 Mar 2023 14:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:10:46.005996
- Title: Class-Incremental Exemplar Compression for Class-Incremental Learning
- Title(参考訳): クラスインクリメンタル学習のためのクラスインクリメンタルエクエンプティブ圧縮
- Authors: Zilin Luo, Yaoyao Liu, Bernt Schiele, Qianru Sun
- Abstract要約: CIM(class-incremental masking)と呼ばれる適応マスク生成モデルを提案する。
我々は,Food-101, ImageNet-100, ImageNet-1000などの高分解能CILベンチマーク実験を行った。
CIMによる圧縮例を用いることで,10Phase ImageNet-1000のFOSTERよりも4.8ポイント高いCIL精度が得られることを示す。
- 参考スコア(独自算出の注目度): 90.93462714376078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exemplar-based class-incremental learning (CIL) finetunes the model with all
samples of new classes but few-shot exemplars of old classes in each
incremental phase, where the "few-shot" abides by the limited memory budget. In
this paper, we break this "few-shot" limit based on a simple yet surprisingly
effective idea: compressing exemplars by downsampling non-discriminative pixels
and saving "many-shot" compressed exemplars in the memory. Without needing any
manual annotation, we achieve this compression by generating 0-1 masks on
discriminative pixels from class activation maps (CAM). We propose an adaptive
mask generation model called class-incremental masking (CIM) to explicitly
resolve two difficulties of using CAM: 1) transforming the heatmaps of CAM to
0-1 masks with an arbitrary threshold leads to a trade-off between the coverage
on discriminative pixels and the quantity of exemplars, as the total memory is
fixed; and 2) optimal thresholds vary for different object classes, which is
particularly obvious in the dynamic environment of CIL. We optimize the CIM
model alternatively with the conventional CIL model through a bilevel
optimization problem. We conduct extensive experiments on high-resolution CIL
benchmarks including Food-101, ImageNet-100, and ImageNet-1000, and show that
using the compressed exemplars by CIM can achieve a new state-of-the-art CIL
accuracy, e.g., 4.8 percentage points higher than FOSTER on 10-Phase
ImageNet-1000. Our code is available at https://github.com/xfflzl/CIM-CIL.
- Abstract(参考訳): exemplar-based class-incremental learning (cil) では、新しいクラスのすべてのサンプルでモデルを微調整するが、インクリメンタルなフェーズ毎に古いクラスの少数のexemplarを微調整する。
本稿では、この「ファウショット」制限を、非識別画素をダウンサンプリングし、メモリ内の「多くの」圧縮例を節約することで、単純な、驚くほど効果的なアイデアに基づいて破る。
手動アノテーションを必要とせず,クラスアクティベーションマップ (cam) から識別画素に0-1マスクを生成することで,この圧縮を実現する。
CAMの2つの難しさを明確に解消するために,CIMと呼ばれる適応マスク生成モデルを提案する。
1)CAMのヒートマップを任意の閾値で0-1マスクに変換すると、全メモリが固定されるにつれて、識別画素のカバレッジと指数の量とのトレードオフにつながる。
2) CILの動的環境において特に明らかな,異なるオブジェクトクラスに対して最適なしきい値が変化する。
CIMモデルを従来のCILモデルに代えてバイレベル最適化問題により最適化する。
我々は、Food-101, ImageNet-100, ImageNet-1000などの高分解能CILベンチマークの広範な実験を行い、CIMによる圧縮された例を用いて、10相 ImageNet-1000のFOSTERよりも4.8ポイント高い新しい最先端CIL精度を実現できることを示す。
私たちのコードはhttps://github.com/xfflzl/CIM-CILで利用可能です。
関連論文リスト
- Quantization-free Lossy Image Compression Using Integer Matrix Factorization [8.009813033356478]
我々は、新しい量子化自由損失画像圧縮法を開発するために、整数行列分解(IMF)の変種を導入する。
IMFは、画像データの低ランク表現を、有界整数要素を持つ2つの小さな因子行列の積として提供する。
我々の手法は、JPEGを低ビットレートで0.25ビット/ピクセル(bpp)以下で連続的に上回り、高いビットレートで比較する。
論文 参考訳(メタデータ) (2024-08-22T19:08:08Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - Image Compression with Product Quantized Masked Image Modeling [44.15706119017024]
最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。
Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。
これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
論文 参考訳(メタデータ) (2022-12-14T17:50:39Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model
and Concatenated Residual Modules [22.818632387206257]
学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。
本稿では,よりフレキシブルなガウス・ラプラシア・ロジスティック混合モデル(GLLMM)を提案する。
符号化/復号化ネットワーク設計部では、複数の残差ブロックを追加のショートカット接続で直列接続する残差ブロック(CRB)を提案する。
論文 参考訳(メタデータ) (2021-07-14T02:54:22Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。