論文の概要: CSPCL: Category Semantic Prior Contrastive Learning for Deformable DETR-Based Prohibited Item Detectors
- arxiv url: http://arxiv.org/abs/2501.16665v1
- Date: Tue, 28 Jan 2025 03:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:34.065977
- Title: CSPCL: Category Semantic Prior Contrastive Learning for Deformable DETR-Based Prohibited Item Detectors
- Title(参考訳): CSPCL:デフォルマブルDTRによる禁止項目検出のためのカテゴリセマンティック事前コントラスト学習
- Authors: Mingyuan Li, Tong Jia, Hui Lu, Bowen Ma, Hao Wang, Dongyue Chen,
- Abstract要約: X線画像に基づく禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
前景と後景の結合により、自然画像用に設計された一般的な検出器は性能が良くない。
本稿では,分類器が認識するクラスプロトタイプとコンテンツクエリとを整合させるカテゴリセマンティック事前比較学習機構を提案する。
- 参考スコア(独自算出の注目度): 8.23801404004195
- License:
- Abstract: Prohibited item detection based on X-ray images is one of the most effective security inspection methods. However, the foreground-background feature coupling caused by the overlapping phenomenon specific to X-ray images makes general detectors designed for natural images perform poorly. To address this issue, we propose a Category Semantic Prior Contrastive Learning (CSPCL) mechanism, which aligns the class prototypes perceived by the classifier with the content queries to correct and supplement the missing semantic information responsible for classification, thereby enhancing the model sensitivity to foreground features.To achieve this alignment, we design a specific contrastive loss, CSP loss, which includes Intra-Class Truncated Attraction (ITA) loss and Inter-Class Adaptive Repulsion (IAR) loss, and outperforms classic N-pair loss and InfoNCE loss. Specifically, ITA loss leverages class prototypes to attract intra-class category-specific content queries while preserving necessary distinctiveness. IAR loss utilizes class prototypes to adaptively repel inter-class category-specific content queries based on the similarity between class prototypes, helping disentangle features of similar categories.CSPCL is general and can be easily integrated into Deformable DETR-based models. Extensive experiments on the PIXray and OPIXray datasets demonstrate that CSPCL significantly enhances the performance of various state-of-the-art models without increasing complexity.The code will be open source once the paper is accepted.
- Abstract(参考訳): X線画像に基づく禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
しかし、X線画像に特有の重なり合う現象による前景・裏面の特徴結合は、自然画像用に設計された一般的な検出器の性能を低下させる。
この問題に対処するため,分類器が認識するクラスプロトタイプをコンテンツクエリと整合させて,分類に責任のある意味情報を補正し補足することで,前景の特徴に対するモデル感度を高めるカテゴリセマンティック事前比較学習(CSPCL)機構を提案し,これを実現するために,クラス間トラヒテッド・トラクション(ITA)の損失とクラス間適応反発(IAR)の損失を含む,特定のコントラスト損失,CSPの損失を設計し,古典的なNペア損失とInfoNCEの損失を上書きする。
具体的には、ITA損失はクラスプロトタイプを活用して、クラス内のカテゴリ固有のコンテンツクエリを惹きつけると同時に、必要な特異性を保っている。
IARロスはクラスプロトタイプを利用して、クラスプロトタイプ間の類似性に基づいてクラス間カテゴリ固有のコンテンツクエリを適応的に削除し、類似したカテゴリの特徴を歪ませることを支援する。
PIXrayデータセットとOPIXrayデータセットの大規模な実験により、CSPCLは複雑さを増すことなく様々な最先端モデルの性能を著しく向上させることを示した。
関連論文リスト
- CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP [22.850815902535988]
筆者らは,CLIP-FSAC++と呼ばれる一段階の訓練を施した効果的な数ショット異常分類フレームワークを提案する。
異常記述子では、画像からテキストへのクロスアテンションモジュールを使用して、画像固有のテキスト埋め込みを得る。
その結果,VisAおよびMVTEC-ADを1, 2, 4, 8ショット設定で非正規ショット異常分類し,本手法の総合的な評価実験を行った。
論文 参考訳(メタデータ) (2024-12-05T02:44:45Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection [8.23801404004195]
X線画像における禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
X線画像における特異な現象が重なり合うと、前景と背景の特徴が結合する。
コンテンツクエリのカテゴリ意味情報を明らかにするために,Multi-class Min-Margin Contrastive Learning (MMCL)法を提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:58Z) - Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection [4.0208298639821525]
ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
論文 参考訳(メタデータ) (2023-11-01T04:04:34Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Adaptive Base-class Suppression and Prior Guidance Network for One-Shot
Object Detection [9.44806128120871]
ワンショットオブジェクト検出(OSOD)は、クエリイメージによって指定された所定のカテゴリに対して、すべてのオブジェクトインスタンスを検出することを目的としている。
本稿では,BSPG(Base-class Suppression and Prior Guidance)ネットワークという新しいフレームワークを提案する。
具体的には,ベースクラス予測器を用いて,ベースクラスのオブジェクトを明示的に検出し,ベースクラス抑制モジュールによって適応的に除去する。
事前誘導モジュールは、非パラメトリックな方法で高レベルの特徴の相関を計算し、クラスに依存しない事前マップを生成し、目的の特徴にリッチなセマンティックな手がかりを与え、その後の検出プロセスを導くように設計されている。
論文 参考訳(メタデータ) (2023-03-24T19:04:30Z) - Learning disentangled representations for explainable chest X-ray
classification using Dirichlet VAEs [68.73427163074015]
本研究では,胸部X線像の非絡み合った潜在表現の学習にDirVAE(Dirichlet Variational Autoencoder)を用いることを検討した。
DirVAEモデルにより学習された多モード潜在表現の予測能力について,補助的多ラベル分類タスクの実装により検討した。
論文 参考訳(メタデータ) (2023-02-06T18:10:08Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。