論文の概要: MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection
- arxiv url: http://arxiv.org/abs/2406.03176v1
- Date: Wed, 5 Jun 2024 12:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:40:12.658233
- Title: MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection
- Title(参考訳): MMCL:超禁物検出のためのマルチクラスミニマージンコントラスト学習による変形可能なDETR検出装置
- Authors: Mingyuan Li, Tong Jia, Hui Lu, Bowen Ma, Hao Wang, Dongyue Chen,
- Abstract要約: X線画像における禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
X線画像における特異な現象が重なり合うと、前景と背景の特徴が結合する。
コンテンツクエリのカテゴリ意味情報を明らかにするために,Multi-class Min-Margin Contrastive Learning (MMCL)法を提案する。
- 参考スコア(独自算出の注目度): 8.23801404004195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prohibited Item detection in X-ray images is one of the most effective security inspection methods.However, differing from natural light images, the unique overlapping phenomena in X-ray images lead to the coupling of foreground and background features, thereby lowering the accuracy of general object detectors.Therefore, we propose a Multi-Class Min-Margin Contrastive Learning (MMCL) method that, by clarifying the category semantic information of content queries under the deformable DETR architecture, aids the model in extracting specific category foreground information from coupled features.Specifically, after grouping content queries by the number of categories, we employ the Multi-Class Inter-Class Exclusion (MIE) loss to push apart content queries from different groups. Concurrently, the Intra-Class Min-Margin Clustering (IMC) loss is utilized to attract content queries within the same group, while ensuring the preservation of necessary disparity. As training, the inherent Hungarian matching of the model progressively strengthens the alignment between each group of queries and the semantic features of their corresponding category of objects. This evolving coherence ensures a deep-seated grasp of category characteristics, consequently bolstering the anti-overlapping detection capabilities of models.MMCL is versatile and can be easily plugged into any deformable DETR-based model with dozens of lines of code. Extensive experiments on the PIXray and OPIXray datasets demonstrate that MMCL significantly enhances the performance of various state-of-the-art models without increasing complexity. The code has been released at https://github.com/anonymity0403/MMCL.
- Abstract(参考訳): 自然光画像と異なり、X線画像の特異な重なり合い現象は前景と背景の特徴の結合を招き、一般的な物体検出器の精度を低下させるが、従来は変形可能なDreTRアーキテクチャの下でコンテンツクエリのカテゴリ意味情報を明確化することで、特定のカテゴリ前景情報を結合した特徴から抽出するモデルを補助するマルチクラス・インタークラス・エクスクルージョン(MIE)法が提案されていた。
同時に、IMC(Intra-Class Min-Margin Clustering)の損失を利用して、同一グループ内のコンテンツクエリを誘引し、必要な相違を確実にする。
トレーニングとして、モデルの固有のハンガリー語マッチングは、各クエリのグループ間のアライメントと、対応するオブジェクトのカテゴリのセマンティックな特徴を徐々に強化する。
この進化するコヒーレンスにより、カテゴリ特性の深い把握が保証され、結果としてモデルの反オーバーラップ検出能力が強化される。MMCLは汎用的で、数十行のコードを持つ変形可能なDETRベースのモデルに容易にプラグインできる。
PIXrayデータセットとOPIXrayデータセットの大規模な実験により、MMCLは複雑さを増すことなく様々な最先端モデルの性能を大幅に向上することが示された。
コードはhttps://github.com/anonymity0403/MMCLでリリースされた。
関連論文リスト
- CSPCL: Category Semantic Prior Contrastive Learning for Deformable DETR-Based Prohibited Item Detectors [8.23801404004195]
X線画像に基づく禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
前景と後景の結合により、自然画像用に設計された一般的な検出器は性能が良くない。
本稿では,分類器が認識するクラスプロトタイプとコンテンツクエリとを整合させるカテゴリセマンティック事前比較学習機構を提案する。
論文 参考訳(メタデータ) (2025-01-28T03:04:22Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Multi-scale Feature Enhancement in Multi-task Learning for Medical Image Analysis [1.6916040234975798]
医用画像における伝統的な深層学習法は、分割や分類にのみ焦点をあてることが多い。
このモデルでは,デコーダがセグメント化マスクを生成するのに対して,エンコーダによって抽出された特徴を分類ラベルの予測に利用する。
複数の医療データセットにまたがる実験結果から, セグメンテーションタスクと分類タスクの両方において, モデルの優れた性能が確認された。
論文 参考訳(メタデータ) (2024-11-30T04:20:05Z) - Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Semantic-Aware Dual Contrastive Learning for Multi-label Image
Classification [8.387933969327852]
本稿では,サンプル対サンプルのコントラスト学習を取り入れた,セマンティック・アウェアな2つのコントラスト学習フレームワークを提案する。
具体的には、セマンティック・アウェアな表現学習を活用して、カテゴリに関連する局所的識別特徴を抽出する。
提案手法は, 最先端の手法よりも有効であり, 性能も優れている。
論文 参考訳(メタデータ) (2023-07-19T01:57:31Z) - Multiplex-detection Based Multiple Instance Learning Network for Whole
Slide Image Classification [2.61155594652503]
マルチ・インスタンス・ラーニング(MIL)は、診断病理のためのスライド画像全体(WSI)を分類する強力な手法である。
本稿では,上記の問題に対処するために,MDMIL(Multiple-detection-based multiple instance learning)を提案する。
具体的には、MDMILは内部クエリ生成モジュール(IQGM)と多重検出モジュール(MDM)によって構成される。
論文 参考訳(メタデータ) (2022-08-06T14:36:48Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。