論文の概要: Generative Multi-modal Models are Good Class-Incremental Learners
- arxiv url: http://arxiv.org/abs/2403.18383v1
- Date: Wed, 27 Mar 2024 09:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:37:28.027780
- Title: Generative Multi-modal Models are Good Class-Incremental Learners
- Title(参考訳): 生成型マルチモーダルモデルは優れたクラスインクリメンタル学習者である
- Authors: Xusheng Cao, Haori Lu, Linlan Huang, Xialei Liu, Ming-Ming Cheng,
- Abstract要約: クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
- 参考スコア(独自算出の注目度): 51.5648732517187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In class-incremental learning (CIL) scenarios, the phenomenon of catastrophic forgetting caused by the classifier's bias towards the current task has long posed a significant challenge. It is mainly caused by the characteristic of discriminative models. With the growing popularity of the generative multi-modal models, we would explore replacing discriminative models with generative ones for CIL. However, transitioning from discriminative to generative models requires addressing two key challenges. The primary challenge lies in transferring the generated textual information into the classification of distinct categories. Additionally, it requires formulating the task of CIL within a generative framework. To this end, we propose a novel generative multi-modal model (GMM) framework for class-incremental learning. Our approach directly generates labels for images using an adapted generative model. After obtaining the detailed text, we use a text encoder to extract text features and employ feature matching to determine the most similar label as the classification prediction. In the conventional CIL settings, we achieve significantly better results in long-sequence task scenarios. Under the Few-shot CIL setting, we have improved by at least 14\% accuracy over all the current state-of-the-art methods with significantly less forgetting. Our code is available at \url{https://github.com/DoubleClass/GMM}.
- Abstract(参考訳): クラスインクリメンタルラーニング(CIL)のシナリオでは、分類器の現在のタスクに対する偏見に起因する破滅的な忘れ込み現象が、長年にわたって重大な課題を提起してきた。
主に差別モデルの特徴によって引き起こされる。
生成的マルチモーダルモデルの人気が高まり、差別的モデルをCILの生成的モデルに置き換えることを検討する。
しかし、差別から生成モデルへの移行には2つの重要な課題に取り組む必要がある。
主な課題は、生成されたテキスト情報を異なるカテゴリの分類に転送することである。
さらに、CILのタスクを生成フレームワーク内で定式化する必要がある。
そこで本研究では,クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
詳細なテキストを得た後、テキストエンコーダを用いてテキストの特徴を抽出し、特徴マッチングを用いて分類予測として最も類似したラベルを決定する。
従来のCIL設定では、長時間のタスクシナリオにおいて、より優れた結果が得られる。
Few-shot CIL設定では、現在の最先端メソッドを少なくとも14倍の精度で改善し、忘れてはならない。
私たちのコードは \url{https://github.com/DoubleClass/GMM} で利用可能です。
関連論文リスト
- Task Confusion and Catastrophic Forgetting in Class-Incremental Learning: A Mathematical Framework for Discriminative and Generative Modelings [5.899701834228992]
クラスインクリメンタルラーニング(class-incremental learning、クラス-IL)では、モデルがタスクIDなしでテスト時に見たすべてのクラスを分類しなければなりません。
本稿では,クラスILの新しい数学的枠組みを提案し,識別モデルでは最適なクラスILは不可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T06:08:38Z) - Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-05-06T15:38:32Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Classify and Generate: Using Classification Latent Space Representations
for Image Generations [17.184760662429834]
本稿では,操作された教師付き潜在表現を用いて,与えられたクラスに属する新しいサンプルを再構成・生成する識別モデリングフレームワークを提案する。
ReGeneは、既存の条件生成モデルよりも高い分類精度を持ち、FIDの点で競争力がある。
論文 参考訳(メタデータ) (2020-04-16T09:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。