論文の概要: Incremental Object Detection with CLIP
- arxiv url: http://arxiv.org/abs/2310.08815v3
- Date: Tue, 9 Jul 2024 06:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:21:19.359680
- Title: Incremental Object Detection with CLIP
- Title(参考訳): CLIPによるインクリメンタルオブジェクト検出
- Authors: Ziyue Huang, Yupeng He, Qingjie Liu, Yunhong Wang,
- Abstract要約: そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。
次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。
そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
- 参考スコア(独自算出の注目度): 36.478530086163744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to the incremental classification task, the incremental detection task is characterized by the presence of data ambiguity, as an image may have differently labeled bounding boxes across multiple continuous learning stages. This phenomenon often impairs the model's ability to effectively learn new classes. However, existing research has paid less attention to the forward compatibility of the model, which limits its suitability for incremental learning. To overcome this obstacle, we propose leveraging a visual-language model such as CLIP to generate text feature embeddings for different class sets, which enhances the feature space globally. We then employ super-classes to replace the unavailable novel classes in the early learning stage to simulate the incremental scenario. Finally, we utilize the CLIP image encoder to accurately identify potential objects. We incorporate the finely recognized detection boxes as pseudo-annotations into the training process, thereby further improving the detection performance. We evaluate our approach on various incremental learning settings using the PASCAL VOC 2007 dataset, and our approach outperforms state-of-the-art methods, particularly for recognizing the new classes.
- Abstract(参考訳): インクリメンタルな分類タスクとは対照的に、インクリメンタルな検出タスクは、複数の連続学習段階にわたって異なるラベル付き境界ボックスを持つことができるため、データのあいまいさの存在によって特徴付けられる。
この現象は、しばしばモデルが新しいクラスを効果的に学習する能力を損なう。
しかし、既存の研究はモデルの前方互換性にはあまり注意を払わず、漸進的な学習に適していることを制限している。
この障害を克服するために、CLIPのような視覚言語モデルを用いて、異なるクラスセットのテキスト特徴埋め込みを生成することを提案する。
次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。
最後に、CLIP画像エンコーダを用いて、潜在的なオブジェクトを正確に識別する。
そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
我々は,PASCAL VOC 2007データセットを用いた様々な漸進的な学習環境に対するアプローチを評価し,そのアプローチは,特に新クラスの認識において最先端の手法よりも優れていることを示す。
関連論文リスト
- COOLer: Class-Incremental Learning for Appearance-Based Multiple Object
Tracking [32.47215340215641]
本稿では,連続学習研究の範囲を,複数物体追跡(MOT)のためのクラス増分学習に拡張する。
オブジェクト検出器の連続学習のための従来のソリューションは、外見に基づくトラッカーのデータ関連ステージには対応していない。
我々は,Contrastive- and cOntinual-LearningベースのトラッカーであるCOOLerを紹介した。
論文 参考訳(メタデータ) (2023-10-04T17:49:48Z) - Cross-Class Feature Augmentation for Class Incremental Learning [45.91253737682168]
本稿では,敵対的攻撃を動機とした機能強化手法を取り入れた新しいクラスインクリメンタルラーニング手法を提案する。
提案手法は,任意の対象クラスの特徴を増大させるため,クラスインクリメンタルラーニングにおける従来の知識を活用するためのユニークな視点を持つ。
提案手法は,様々なシナリオにおいて,既存の段階的学習手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-04-04T15:48:09Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - Towards Generalized and Incremental Few-Shot Object Detection [9.033533653482529]
新規なインクリメンタルFew-Shot Object Detection (iFSOD) 法を提案する。
具体的には、ベースクラスと新規クラスの特徴表現を分離するために、DBF(Double-Branch Framework)を提案する。
我々はPascal VOCとMS-COCOの両方で実験を行い、この手法がインクリメンタル・ショット検出の問題を効果的に解決できることを実証した。
論文 参考訳(メタデータ) (2021-09-23T12:38:09Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Continual Representation Learning for Biometric Identification [47.15075374158398]
本稿では,連続的な表現の学習に焦点をあてた「連続的な表現の学習」という,新たなCL(Continuous Learning)設定を提案する。
既存のCL手法が新しい設定での表現を改善することを実証し,提案手法は競合手法よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2020-06-08T10:18:06Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。