論文の概要: SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2407.02665v2
- Date: Tue, 17 Sep 2024 15:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:41:27.972607
- Title: SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection
- Title(参考訳): SMILe:ロバストなFew-Shotオブジェクト検出のためのサブモジュール相互情報を活用する
- Authors: Anay Majee, Ryan Sharp, Rishabh Iyer,
- Abstract要約: Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
- 参考スコア(独自算出の注目度): 2.0755366440393743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Confusion and forgetting of object classes have been challenges of prime interest in Few-Shot Object Detection (FSOD). To overcome these pitfalls in metric learning based FSOD techniques, we introduce a novel Submodular Mutual Information Learning (SMILe) framework which adopts combinatorial mutual information functions to enforce the creation of tighter and discriminative feature clusters in FSOD. Our proposed approach generalizes to several existing approaches in FSOD, agnostic of the backbone architecture demonstrating elevated performance gains. A paradigm shift from instance based objective functions to combinatorial objectives in SMILe naturally preserves the diversity within an object class resulting in reduced forgetting when subjected to few training examples. Furthermore, the application of mutual information between the already learnt (base) and newly added (novel) objects ensures sufficient separation between base and novel classes, minimizing the effect of class confusion. Experiments on popular FSOD benchmarks, PASCAL-VOC and MS-COCO show that our approach generalizes to State-of-the-Art (SoTA) approaches improving their novel class performance by up to 5.7% (3.3 mAP points) and 5.4% (2.6 mAP points) on the 10-shot setting of VOC (split 3) and 30-shot setting of COCO datasets respectively. Our experiments also demonstrate better retention of base class performance and up to 2x faster convergence over existing approaches agnostic of the underlying architecture.
- Abstract(参考訳): オブジェクトクラスの融合と忘れは、Few-Shot Object Detection (FSOD) の主要な関心事である。
計量学習に基づくFSOD手法におけるこれらの落とし穴を克服するため、FSODにおけるより厳密で差別的な特徴クラスタの作成を強制するために、組合せ的相互情報関数を採用する新しいサブモジュール・ミューチュアル・インフォメーション・ラーニング(SMILe)フレームワークを導入する。
提案手法は,性能向上を示すバックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
インスタンスベースの目的関数からSMILeの組合せ目的関数へのパラダイムシフトは、オブジェクトクラス内の多様性を自然に保存し、少数のトレーニング例に従えば、忘れることを減らす。
さらに、既に学習されている(ベース)オブジェクトと新たに追加された(ノーベル)オブジェクト間の相互情報の適用により、ベースクラスと新規クラスの十分な分離が保証され、クラス混乱の影響を最小限に抑えることができる。
人気のあるFSODベンチマークを用いて,PASCAL-VOC と MS-COCO を用いて,VOC の 10 ショット設定でそれぞれ5.7% (3.3 mAP 点) と5.4% (2.6 mAP 点) の新規クラス性能向上を図った。
我々の実験はまた、基礎となるアーキテクチャに依存しない既存のアプローチに対して、ベースクラス性能の維持と最大2倍の高速収束を実証した。
関連論文リスト
- UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic Segmentation [12.653336728447654]
学習可能なメモリベクトルの集合からなるクラス共有メモリ(CSM)モジュールを提案する。
これらのメモリベクトルは、トレーニング中にベースクラスから要素オブジェクトパターンを学習し、トレーニングと推論の両方でクエリ機能を再エンコードする。
我々は、CSMとUFAを代表的FSS作品に統合し、広く使われているPASCAL-5$i$とCOCO-20$i$データセットの実験結果を得た。
論文 参考訳(メタデータ) (2024-06-01T19:53:25Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Incremental Few-Shot Object Detection via Simple Fine-Tuning Approach [6.808112517338073]
iFSDは、いくつかの例を使って、ベースクラスを再考することなく、新しいクラスを漸進的に学習する。
そこで本研究では,iFSDのための単純な微調整手法であるIncrmental Two-stage Fine-tuning Approach (iTFA)を提案する。
iTFAはCOCOの競争性能を達成し、LVISデータセットのメタラーニング手法よりも30%高いAP精度を示す。
論文 参考訳(メタデータ) (2023-02-20T05:48:46Z) - Modeling Inter-Class and Intra-Class Constraints in Novel Class
Discovery [20.67503042774617]
新たなクラス発見(NCD)は、クラス非結合なラベル付きデータセットから別の非ラベル付きデータセットへ共通の知識を転送するモデルを学ぶことを目的としている。
対称KKLD(Kullback-Leibler divergence)に基づくNCDにおけるクラス間制約とクラス内制約の両方をモデル化する。
論文 参考訳(メタデータ) (2022-10-07T14:46:32Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Attention Guided Cosine Margin For Overcoming Class-Imbalance in
Few-Shot Road Object Detection [5.821060995749903]
Few-shot Object Detection (FSOD)は、少数のデータサンプルのみを与えられた画像内のオブジェクトをローカライズし、分類する。
FSOD研究の最近の傾向は、破滅的な忘れ込みや階級混乱につながるメトリックとメタラーニング技術の採用を示している。
我々は、より厳密で適切に分離されたクラス固有の特徴クラスタの作成を容易にするAttention Guided Cosine Margin (AGCM)を紹介します。
論文 参考訳(メタデータ) (2021-11-12T10:11:56Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。