論文の概要: Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2504.07060v1
- Date: Wed, 09 Apr 2025 17:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:03.441750
- Title: Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection
- Title(参考訳): Few-Shotオブジェクト検出のための埋め込み側情報による汎用意味的コントラスト学習
- Authors: Ruoyu Chen, Hua Zhang, Jingzhi Li, Li Liu, Zhen Huang, Xiaochun Cao,
- Abstract要約: マイクロショットオブジェクト検出(FSOD)の目的は、少数のトレーニングサンプルで新しいオブジェクトを検出することである。
本稿では,特徴空間とサンプル視点から得られる負の影響を緩和する側面情報を紹介する。
我々のモデルは従来の最先端手法よりも優れており、ほとんどのショット/スプリットにおけるFSODの能力は大幅に向上している。
- 参考スコア(独自算出の注目度): 52.490375806093745
- License:
- Abstract: The objective of few-shot object detection (FSOD) is to detect novel objects with few training samples. The core challenge of this task is how to construct a generalized feature space for novel categories with limited data on the basis of the base category space, which could adapt the learned detection model to unknown scenarios. However, limited by insufficient samples for novel categories, two issues still exist: (1) the features of the novel category are easily implicitly represented by the features of the base category, leading to inseparable classifier boundaries, (2) novel categories with fewer data are not enough to fully represent the distribution, where the model fine-tuning is prone to overfitting. To address these issues, we introduce the side information to alleviate the negative influences derived from the feature space and sample viewpoints and formulate a novel generalized feature representation learning method for FSOD. Specifically, we first utilize embedding side information to construct a knowledge matrix to quantify the semantic relationship between the base and novel categories. Then, to strengthen the discrimination between semantically similar categories, we further develop contextual semantic supervised contrastive learning which embeds side information. Furthermore, to prevent overfitting problems caused by sparse samples, a side-information guided region-aware masked module is introduced to augment the diversity of samples, which finds and abandons biased information that discriminates between similar categories via counterfactual explanation, and refines the discriminative representation space further. Extensive experiments using ResNet and ViT backbones on PASCAL VOC, MS COCO, LVIS V1, FSOD-1K, and FSVOD-500 benchmarks demonstrate that our model outperforms the previous state-of-the-art methods, significantly improving the ability of FSOD in most shots/splits.
- Abstract(参考訳): マイクロショットオブジェクト検出(FSOD)の目的は、少数のトレーニングサンプルで新しいオブジェクトを検出することである。
この課題の中核となる課題は、学習された検出モデルを未知のシナリオに適応できる基本カテゴリ空間に基づいて、限られたデータを持つ新しいカテゴリのための一般化された特徴空間を構築する方法である。
しかし, 新規カテゴリのサンプルが不足していることから, 1) 新規カテゴリの特徴は, 基本カテゴリの特徴によって暗黙的に表現されやすく, 分離不能な分類器の境界, (2) 少ないデータを持つ新規カテゴリは, 分布を完全に表現するには不十分であり, モデルの微調整は過度に適合しがちである, という2つの課題が残っている。
これらの課題に対処するため,我々は,特徴空間とサンプル視点から得られる負の影響を緩和し,FSODのための新しい一般化された特徴表現学習法を定式化する側面情報を導入する。
具体的には、まず埋め込み側情報を用いて知識マトリックスを構築し、ベースと新しいカテゴリのセマンティックな関係を定量化する。
そして,意味的に類似したカテゴリ間の識別を強化するために,側面情報を組み込んだ文脈的意味指導型コントラスト学習を開発する。
さらに、スパースサンプルによる過度な適合を防止するため、サンプルの多様性を高めるために側情報案内領域対応マスクモジュールを導入し、類似するカテゴリ間で識別するバイアス情報を発見して放棄し、識別表現空間をさらに洗練させる。
PASCAL VOC, MS COCO, LVIS V1, FSOD-1K, FSVOD-500 ベンチマークにおける ResNet と ViT のバックボーンを用いた大規模な実験により、我々のモデルは従来の最先端手法よりも優れており、ほとんどのショット/スプリットにおける FSOD の能力を大幅に向上することを示した。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition [49.26065739704278]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Adaptive Base-class Suppression and Prior Guidance Network for One-Shot
Object Detection [9.44806128120871]
ワンショットオブジェクト検出(OSOD)は、クエリイメージによって指定された所定のカテゴリに対して、すべてのオブジェクトインスタンスを検出することを目的としている。
本稿では,BSPG(Base-class Suppression and Prior Guidance)ネットワークという新しいフレームワークを提案する。
具体的には,ベースクラス予測器を用いて,ベースクラスのオブジェクトを明示的に検出し,ベースクラス抑制モジュールによって適応的に除去する。
事前誘導モジュールは、非パラメトリックな方法で高レベルの特徴の相関を計算し、クラスに依存しない事前マップを生成し、目的の特徴にリッチなセマンティックな手がかりを与え、その後の検出プロセスを導くように設計されている。
論文 参考訳(メタデータ) (2023-03-24T19:04:30Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文 参考訳(メタデータ) (2022-04-21T13:35:38Z) - Unsupervised Domain Adaptation in Semantic Segmentation: a Review [22.366638308792734]
本研究の目的は, セマンティックセグメンテーションのための深層ネットワークのUnsupervised Domain Adaptation (UDA) の最近の進歩について概説することである。
論文 参考訳(メタデータ) (2020-05-21T20:10:38Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。