論文の概要: Image-Object-Specific Prompt Learning for Few-Shot Class-Incremental
Learning
- arxiv url: http://arxiv.org/abs/2309.02833v2
- Date: Thu, 7 Dec 2023 08:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:26:08.003981
- Title: Image-Object-Specific Prompt Learning for Few-Shot Class-Incremental
Learning
- Title(参考訳): Few-Shot Class-Incremental Learningのための画像オブジェクト特異的プロンプト学習
- Authors: In-Ug Yoon, Tae-Min Choi, Sun-Kyung Lee, Young-Min Kim, Jong-Hwan Kim
- Abstract要約: 本稿では,CLIP(Contrastive Language- Image Pre-Training)モデルのクラスに対する一般化性を活かした,FSCILの新しいトレーニングフレームワークを提案する。
私たちのフレームワークは、過去の知識を維持し、忘れたり過度に適合することなく、新しいセッションに迅速に適応するように構成されています。
提案手法は,MiniImageNet,CIFAR100,CUB200データセットを対象とする最先端手法と比較して,常に優れた性能を示す。
- 参考スコア(独自算出の注目度): 14.252329353217748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many FSCIL studies have been undertaken, achieving satisfactory
performance, especially during incremental sessions, has remained challenging.
One prominent challenge is that the encoder, trained with an ample base session
training set, often underperforms in incremental sessions. In this study, we
introduce a novel training framework for FSCIL, capitalizing on the
generalizability of the Contrastive Language-Image Pre-training (CLIP) model to
unseen classes. We achieve this by formulating image-object-specific (IOS)
classifiers for the input images. Here, an IOS classifier refers to one that
targets specific attributes (like wings or wheels) of class objects rather than
the image's background. To create these IOS classifiers, we encode a bias
prompt into the classifiers using our specially designed module, which
harnesses key-prompt pairs to pinpoint the IOS features of classes in each
session. From an FSCIL standpoint, our framework is structured to retain
previous knowledge and swiftly adapt to new sessions without forgetting or
overfitting. This considers the updatability of modules in each session and
some tricks empirically found for fast convergence. Our approach consistently
demonstrates superior performance compared to state-of-the-art methods across
the miniImageNet, CIFAR100, and CUB200 datasets. Further, we provide additional
experiments to validate our learned model's ability to achieve IOS classifiers.
We also conduct ablation studies to analyze the impact of each module within
the architecture.
- Abstract(参考訳): 多くのFSCIL研究が実施されているが、特にインクリメンタルセッションにおいて、満足なパフォーマンスを達成することは依然として困難である。
注目すべき課題のひとつは、十分なベースセッショントレーニングセットでトレーニングされたエンコーダが、インクリメンタルセッションではパフォーマンスが劣っていることだ。
本研究では,CLIP(Contrastive Language- Image Pre-Training)モデルのクラスに対する一般化性を活かした,FSCILの新しいトレーニングフレームワークを提案する。
入力画像に対する画像オブジェクト固有(IOS)分類器を定式化する。
ここでは、IOS分類器は画像の背景ではなく、クラスオブジェクトの特定の属性(翼や車輪など)をターゲットにしている。
これらのIOS分類器を作成するために、特別に設計されたモジュールを使ってバイアスプロンプトを分類器にエンコードし、キーとプロンプトのペアを使って各セッションでクラスのIOS機能をピンポイントする。
fscilの立場から考えると、私たちのフレームワークは以前の知識を保ち、新しいセッションに素早く適応するように構成されています。
これは各セッションにおけるモジュールのアップカビリティと、高速収束のために実証的なトリックを考慮したものである。
提案手法は,MiniImageNet,CIFAR100,CUB200データセットを対象とする最先端手法と比較して,優れた性能を示す。
さらに、IOS分類器を実現するための学習モデルの能力を検証するための追加実験も提供する。
また、アーキテクチャ内の各モジュールの影響を分析するためのアブレーション研究も行います。
関連論文リスト
- Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - Knowledge Adaptation Network for Few-Shot Class-Incremental Learning [23.90555521006653]
クラス増分学習(class-incremental learning)は、いくつかのサンプルを使用して、新しいクラスを段階的に認識することを目的としている。
この問題を解決する効果的な方法の1つは、原型進化分類器を構築することである。
新しいクラスの表現は弱で偏りがあるので、そのような戦略は準最適であると主張する。
論文 参考訳(メタデータ) (2024-09-18T07:51:38Z) - Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。
AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。
SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文 参考訳(メタデータ) (2024-06-14T08:34:20Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - Learning Instance and Task-Aware Dynamic Kernels for Few Shot Learning [32.3217883750605]
我々は、手前のタスクの関数として畳み込みネットワークの動的カーネルを学習し、より高速な一般化を可能にする。
実験により,本モデルでは,数発の分類および検出タスクの性能向上を実証的に示す。
論文 参考訳(メタデータ) (2021-12-07T04:52:36Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。