論文の概要: Image-Object-Specific Prompt Learning for Few-Shot Class-Incremental
Learning
- arxiv url: http://arxiv.org/abs/2309.02833v2
- Date: Thu, 7 Dec 2023 08:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:26:08.003981
- Title: Image-Object-Specific Prompt Learning for Few-Shot Class-Incremental
Learning
- Title(参考訳): Few-Shot Class-Incremental Learningのための画像オブジェクト特異的プロンプト学習
- Authors: In-Ug Yoon, Tae-Min Choi, Sun-Kyung Lee, Young-Min Kim, Jong-Hwan Kim
- Abstract要約: 本稿では,CLIP(Contrastive Language- Image Pre-Training)モデルのクラスに対する一般化性を活かした,FSCILの新しいトレーニングフレームワークを提案する。
私たちのフレームワークは、過去の知識を維持し、忘れたり過度に適合することなく、新しいセッションに迅速に適応するように構成されています。
提案手法は,MiniImageNet,CIFAR100,CUB200データセットを対象とする最先端手法と比較して,常に優れた性能を示す。
- 参考スコア(独自算出の注目度): 14.252329353217748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many FSCIL studies have been undertaken, achieving satisfactory
performance, especially during incremental sessions, has remained challenging.
One prominent challenge is that the encoder, trained with an ample base session
training set, often underperforms in incremental sessions. In this study, we
introduce a novel training framework for FSCIL, capitalizing on the
generalizability of the Contrastive Language-Image Pre-training (CLIP) model to
unseen classes. We achieve this by formulating image-object-specific (IOS)
classifiers for the input images. Here, an IOS classifier refers to one that
targets specific attributes (like wings or wheels) of class objects rather than
the image's background. To create these IOS classifiers, we encode a bias
prompt into the classifiers using our specially designed module, which
harnesses key-prompt pairs to pinpoint the IOS features of classes in each
session. From an FSCIL standpoint, our framework is structured to retain
previous knowledge and swiftly adapt to new sessions without forgetting or
overfitting. This considers the updatability of modules in each session and
some tricks empirically found for fast convergence. Our approach consistently
demonstrates superior performance compared to state-of-the-art methods across
the miniImageNet, CIFAR100, and CUB200 datasets. Further, we provide additional
experiments to validate our learned model's ability to achieve IOS classifiers.
We also conduct ablation studies to analyze the impact of each module within
the architecture.
- Abstract(参考訳): 多くのFSCIL研究が実施されているが、特にインクリメンタルセッションにおいて、満足なパフォーマンスを達成することは依然として困難である。
注目すべき課題のひとつは、十分なベースセッショントレーニングセットでトレーニングされたエンコーダが、インクリメンタルセッションではパフォーマンスが劣っていることだ。
本研究では,CLIP(Contrastive Language- Image Pre-Training)モデルのクラスに対する一般化性を活かした,FSCILの新しいトレーニングフレームワークを提案する。
入力画像に対する画像オブジェクト固有(IOS)分類器を定式化する。
ここでは、IOS分類器は画像の背景ではなく、クラスオブジェクトの特定の属性(翼や車輪など)をターゲットにしている。
これらのIOS分類器を作成するために、特別に設計されたモジュールを使ってバイアスプロンプトを分類器にエンコードし、キーとプロンプトのペアを使って各セッションでクラスのIOS機能をピンポイントする。
fscilの立場から考えると、私たちのフレームワークは以前の知識を保ち、新しいセッションに素早く適応するように構成されています。
これは各セッションにおけるモジュールのアップカビリティと、高速収束のために実証的なトリックを考慮したものである。
提案手法は,MiniImageNet,CIFAR100,CUB200データセットを対象とする最先端手法と比較して,優れた性能を示す。
さらに、IOS分類器を実現するための学習モデルの能力を検証するための追加実験も提供する。
また、アーキテクチャ内の各モジュールの影響を分析するためのアブレーション研究も行います。
関連論文リスト
- Learning Prompt with Distribution-Based Feature Replay for Few-Shot
Class-Incremental Learning [58.4078444826737]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - Learning Instance and Task-Aware Dynamic Kernels for Few Shot Learning [32.3217883750605]
我々は、手前のタスクの関数として畳み込みネットワークの動的カーネルを学習し、より高速な一般化を可能にする。
実験により,本モデルでは,数発の分類および検出タスクの性能向上を実証的に示す。
論文 参考訳(メタデータ) (2021-12-07T04:52:36Z) - Dynamic Relevance Learning for Few-Shot Object Detection [6.550840743803705]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。
提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文 参考訳(メタデータ) (2021-08-04T18:29:42Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Few-Shot Incremental Learning with Continually Evolved Classifiers [46.278573301326276]
Few-shot Class-Incremental Learning(FSCIL)は、いくつかのデータポイントから新しい概念を継続的に学習できる機械学習アルゴリズムの設計を目指している。
難点は、新しいクラスからの限られたデータが、重大な過度な問題を引き起こすだけでなく、破滅的な忘れの問題も悪化させることにある。
我々は,適応のための分類器間のコンテキスト情報を伝達するグラフモデルを用いた連続進化型cif(cec)を提案する。
論文 参考訳(メタデータ) (2021-04-07T10:54:51Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。