論文の概要: UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation
- arxiv url: http://arxiv.org/abs/2411.08569v1
- Date: Wed, 13 Nov 2024 12:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:08.363584
- Title: UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation
- Title(参考訳): UIFormer: インクリメンタルなFew-Shotオブジェクト検出とインスタンスセグメンテーションのための統一トランスフォーマーベースのフレームワーク
- Authors: Chengyuan Zhang, Yilin Zhang, Lei Zhu, Deyin Liu, Lin Wu, Bo Li, Shichao Zhang, Mohammed Bennamoun, Farid Boussaid,
- Abstract要約: 本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
- 参考スコア(独自算出の注目度): 38.331860053615955
- License:
- Abstract: This paper introduces a novel framework for unified incremental few-shot object detection (iFSOD) and instance segmentation (iFSIS) using the Transformer architecture. Our goal is to create an optimal solution for situations where only a few examples of novel object classes are available, with no access to training data for base or old classes, while maintaining high performance across both base and novel classes. To achieve this, We extend Mask-DINO into a two-stage incremental learning framework. Stage 1 focuses on optimizing the model using the base dataset, while Stage 2 involves fine-tuning the model on novel classes. Besides, we incorporate a classifier selection strategy that assigns appropriate classifiers to the encoder and decoder according to their distinct functions. Empirical evidence indicates that this approach effectively mitigates the over-fitting on novel classes learning. Furthermore, we implement knowledge distillation to prevent catastrophic forgetting of base classes. Comprehensive evaluations on the COCO and LVIS datasets for both iFSIS and iFSOD tasks demonstrate that our method significantly outperforms state-of-the-art approaches.
- Abstract(参考訳): 本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、ベースクラスと新しいクラスの両方で高いパフォーマンスを維持しながら、ベースクラスと古いクラスのトレーニングデータにアクセスせずに、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対する最適なソリューションを作ることです。
これを実現するために、Mask-DINOを2段階のインクリメンタルラーニングフレームワークに拡張する。
ステージ1はベースデータセットを使用してモデルを最適化することに焦点を当て、ステージ2は新しいクラスでモデルを微調整する。
さらに、適切な分類器をエンコーダとデコーダに割り当てる分類器選択戦略を、それぞれの機能に応じて組み込む。
実証的な証拠は、このアプローチが新しいクラス学習の過度な適合を効果的に軽減していることを示している。
さらに,基礎クラスの破滅的な忘れ込みを防止するため,知識蒸留を実装した。
iFSISタスクとiFSODタスクのCOCOデータセットとLVISデータセットの総合的な評価は、我々の手法が最先端のアプローチを大幅に上回っていることを示す。
関連論文リスト
- SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection [2.0755366440393743]
Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
論文 参考訳(メタデータ) (2024-07-02T20:53:43Z) - Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic Segmentation [12.653336728447654]
学習可能なメモリベクトルの集合からなるクラス共有メモリ(CSM)モジュールを提案する。
これらのメモリベクトルは、トレーニング中にベースクラスから要素オブジェクトパターンを学習し、トレーニングと推論の両方でクエリ機能を再エンコードする。
我々は、CSMとUFAを代表的FSS作品に統合し、広く使われているPASCAL-5$i$とCOCO-20$i$データセットの実験結果を得た。
論文 参考訳(メタデータ) (2024-06-01T19:53:25Z) - Incremental Few-Shot Object Detection via Simple Fine-Tuning Approach [6.808112517338073]
iFSDは、いくつかの例を使って、ベースクラスを再考することなく、新しいクラスを漸進的に学習する。
そこで本研究では,iFSDのための単純な微調整手法であるIncrmental Two-stage Fine-tuning Approach (iTFA)を提案する。
iTFAはCOCOの競争性能を達成し、LVISデータセットのメタラーニング手法よりも30%高いAP精度を示す。
論文 参考訳(メタデータ) (2023-02-20T05:48:46Z) - Class-Incremental Learning with Strong Pre-trained Models [97.84755144148535]
CIL(Class-incremental Learning)は、少数のクラス(ベースクラス)から始まる設定で広く研究されている。
我々は、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定について検討する。
提案手法は、解析されたCIL設定すべてに頑健で一般化されている。
論文 参考訳(メタデータ) (2022-04-07T17:58:07Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。