論文の概要: Semantic Enhanced Few-shot Object Detection
- arxiv url: http://arxiv.org/abs/2406.13498v1
- Date: Wed, 19 Jun 2024 12:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 19:53:21.002748
- Title: Semantic Enhanced Few-shot Object Detection
- Title(参考訳): 意味的強調Few-shotオブジェクト検出
- Authors: Zheng Wang, Yingjie Gao, Qingjie Liu, Yunhong Wang,
- Abstract要約: 本稿では, セマンティックな埋め込みを利用してより優れた検出を行う, 微調整に基づくFSODフレームワークを提案する。
提案手法は,各新規クラスが類似の基底クラスと混同されることなく,コンパクトな特徴空間を構築することを可能にする。
- 参考スコア(独自算出の注目度): 37.715912401900745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot object detection~(FSOD), which aims to detect novel objects with limited annotated instances, has made significant progress in recent years. However, existing methods still suffer from biased representations, especially for novel classes in extremely low-shot scenarios. During fine-tuning, a novel class may exploit knowledge from similar base classes to construct its own feature distribution, leading to classification confusion and performance degradation. To address these challenges, we propose a fine-tuning based FSOD framework that utilizes semantic embeddings for better detection. In our proposed method, we align the visual features with class name embeddings and replace the linear classifier with our semantic similarity classifier. Our method trains each region proposal to converge to the corresponding class embedding. Furthermore, we introduce a multimodal feature fusion to augment the vision-language communication, enabling a novel class to draw support explicitly from well-trained similar base classes. To prevent class confusion, we propose a semantic-aware max-margin loss, which adaptively applies a margin beyond similar classes. As a result, our method allows each novel class to construct a compact feature space without being confused with similar base classes. Extensive experiments on Pascal VOC and MS COCO demonstrate the superiority of our method.
- Abstract(参考訳): 注釈付きインスタンスに制限のある新規なオブジェクトを検出することを目的としているFSOD(Few-shot Object Detection)は,近年大きく進歩している。
しかし、既存の手法は依然としてバイアスのある表現に悩まされている。
微調整の間、新しいクラスは類似の基底クラスからの知識を利用して独自の特徴分布を構築し、分類の混乱と性能劣化を引き起こす。
これらの課題に対処するために,セマンティック埋め込みを利用してより優れた検出を行う,微調整ベースのFSODフレームワークを提案する。
提案手法では,視覚特徴をクラス名埋め込みに整合させ,線形分類器を意味的類似性分類器に置き換える。
我々の手法は、各領域の提案に対して、対応するクラス埋め込みに収束するように訓練する。
さらに,視覚言語コミュニケーションを強化するためのマルチモーダル機能融合を導入し,新しいクラスがよく訓練された類似のベースクラスから明示的にサポートを引き出せるようにした。
クラス混同を防止するため,類似クラスに限らず適応的にマージン損失を付与するセマンティック・アウェア・マックスマージン損失を提案する。
その結果,各新規クラスは,類似の基底クラスと混同されることなく,コンパクトな特徴空間を構築できることがわかった。
パスカルVOCおよびMS COCOの広範囲な実験により,本法の有用性が示された。
関連論文リスト
- Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for
Open-Vocabulary Object Detection [7.122652901894367]
Open-vocabulary Object Detection (OVOD)は、トレーニングセットにカテゴリが含まれていない新しいオブジェクトを認識することを目的としている。
本稿では,新しいクラス全体の分布を一般化する手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T13:45:56Z) - Few-Shot Class-Incremental Learning via Training-Free Prototype
Calibration [67.69532794049445]
既存のメソッドでは、新しいクラスのサンプルをベースクラスに誤分類する傾向があり、新しいクラスのパフォーマンスが低下する。
我々は,新しいクラスの識別性を高めるため,簡易かつ効果的なトレーニング-フレア・カロブラシアン (TEEN) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-08T18:24:08Z) - Harmonizing Base and Novel Classes: A Class-Contrastive Approach for
Generalized Few-Shot Segmentation [78.74340676536441]
本稿では,プロトタイプの更新を規制し,プロトタイプ間の距離を広くするために,クラス間のコントラスト損失とクラス関係損失を提案する。
提案手法は,PASCAL VOC および MS COCO データセット上での一般化された小ショットセグメンテーションタスクに対して,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T00:30:25Z) - Few-Shot Object Detection via Variational Feature Aggregation [32.34871873486389]
本稿では,2つの新しい特徴集約方式を用いたメタラーニングフレームワークを提案する。
まず,クラス非依存アグリゲーション(CAA)手法を提案する。
次に、クラスレベルのサポート機能にサポート例をエンコードする変分特徴集約(VFA)手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T04:58:21Z) - Incremental Few-Shot Learning via Implanting and Compressing [13.122771115838523]
増分的なFew-Shot Learningは、いくつかの例から新しいクラスを継続的に学習するモデルを必要とする。
我々はtextbfImplanting と textbfCompressing と呼ばれる2段階の学習戦略を提案する。
具体的には、textbfImplantingのステップにおいて、新しいクラスのデータ分布をデータ・アサンダント・ベース・セットの助けを借りて模倣することを提案する。
textbfのステップでは、特徴抽出器を各新規クラスを正確に表現し、クラス内コンパクト性を高める。
論文 参考訳(メタデータ) (2022-03-19T11:04:43Z) - Few-Shot Object Detection via Association and DIscrimination [83.8472428718097]
AssociationとDIscriminationによるオブジェクト検出は、新しいクラスごとに2つのステップで識別可能な特徴空間を構築している。
Pascal VOCとMS-COCOデータセットの実験では、FADIは新しいSOTAパフォーマンスを実現し、ショット/スプリットのベースラインを+18.7で大幅に改善した。
論文 参考訳(メタデータ) (2021-11-23T05:04:06Z) - Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。
基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。
提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文 参考訳(メタデータ) (2021-06-01T02:17:36Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。