論文の概要: Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIP
- arxiv url: http://arxiv.org/abs/2406.10961v1
- Date: Sun, 16 Jun 2024 14:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:42:48.846385
- Title: Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIP
- Title(参考訳): 細調整CLIPによるオープンボキャブラリX線禁止項目検出
- Authors: Shuyang Lin, Tong Jia, Hao Wang, Bowen Ma, Mingyuan Li, Dongyue Chen,
- Abstract要約: 蒸留をベースとしたオープン語彙オブジェクト検出タスクをX線セキュリティ検査領域に導入する。
検知器が訓練された基準カテゴリを超えた、新しい禁止アイテムカテゴリを検出することを目的としている。
X線機能アダプタをOVODフレームワーク内のCLIPに適用し、OVXDモデルを開発する。
- 参考スコア(独自算出の注目度): 6.934570446284497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: X-ray prohibited item detection is an essential component of security check and categories of prohibited item are continuously increasing in accordance with the latest laws. Previous works all focus on close-set scenarios, which can only recognize known categories used for training and often require time-consuming as well as labor-intensive annotations when learning novel categories, resulting in limited real-world applications. Although the success of vision-language models (e.g. CLIP) provides a new perspectives for open-set X-ray prohibited item detection, directly applying CLIP to X-ray domain leads to a sharp performance drop due to domain shift between X-ray data and general data used for pre-training CLIP. To address aforementioned challenges, in this paper, we introduce distillation-based open-vocabulary object detection (OVOD) task into X-ray security inspection domain by extending CLIP to learn visual representations in our specific X-ray domain, aiming to detect novel prohibited item categories beyond base categories on which the detector is trained. Specifically, we propose X-ray feature adapter and apply it to CLIP within OVOD framework to develop OVXD model. X-ray feature adapter containing three adapter submodules of bottleneck architecture, which is simple but can efficiently integrate new knowledge of X-ray domain with original knowledge, further bridge domain gap and promote alignment between X-ray images and textual concepts. Extensive experiments conducted on PIXray and PIDray datasets demonstrate that proposed method performs favorably against other baseline OVOD methods in detecting novel categories in X-ray scenario. It outperforms previous best result by 15.2 AP50 and 1.5 AP50 on PIXray and PIDray with achieving 21.0 AP50 and 27.8 AP50 respectively.
- Abstract(参考訳): X線禁止項目検出は、セキュリティチェックの不可欠な要素であり、最新の法律に従って、禁止項目のカテゴリが継続的に増加している。
トレーニングに使用される既知のカテゴリのみを認識でき、新しいカテゴリを学ぶ際に労働集約的なアノテーションを必要とせず、結果として現実世界のアプリケーションに限られる。
視覚言語モデル(例えばCLIP)の成功は、オープンセットのX線禁止アイテム検出のための新しい視点を提供するが、CLIPを直接X線領域に適用すると、X線データとCLIPの事前トレーニングに使用される一般的なデータとのドメインシフトによって、パフォーマンスが大幅に低下する。
上記の課題に対処するため、本論文では、CLIPを拡張して特定のX線領域における視覚的表現を学習することにより、蒸留に基づくオープンボキャブラリオブジェクト検出(OVOD)タスクをX線セキュリティ検査領域に導入する。
具体的には、OVXDモデルを開発するために、X線機能アダプタを提案し、OVODフレームワーク内のCLIPに適用する。
ボトルネックアーキテクチャの3つのアダプタサブモジュールを含むX線機能アダプタは、単純だが、X線領域の新しい知識を元の知識と効率的に統合し、さらに領域ギャップを橋渡しし、X線画像とテキスト概念のアライメントを促進することができる。
PIXray と PIDray のデータセットを用いた大規模な実験により,提案手法は,X線シナリオにおける新しいカテゴリの検出において,他のベースライン OVOD 法に対して良好に動作することを示した。
PIXrayでは15.2 AP50、PIDrayでは1.5 AP50、それぞれ21.0 AP50と27.8 AP50を上回っている。
関連論文リスト
- BGM: Background Mixup for X-ray Prohibited Items Detection [75.58709178012502]
本稿では,X線画像固有の特徴を活かして,禁止項目検出に適した新しいデータ拡張手法を提案する。
1) X線透過画像: 反射光画像とは異なり、透過X線画素は、撮像経路に沿った複数の材料からの合成情報を表す。
本稿では,セキュリティスクリーニングにおけるアイテム検出の禁止を目的とした,単純かつ効果的なX線画像強調手法であるバックグラウンドミキサップ(BGM)を提案する。
論文 参考訳(メタデータ) (2024-11-30T12:26:55Z) - Dual-view X-ray Detection: Can AI Detect Prohibited Items from Dual-view X-ray Images like Humans? [78.26435264182763]
大規模デュアルビューX線(LDXray)を導入し,12のカテゴリで353,646個のインスタンスで構成されている。
デュアルビュー検出におけるヒューマンインテリジェンスをエミュレートするために,補助ビュー拡張ネットワーク(AENet)を提案する。
LDXrayデータセットの実験では、デュアルビュー機構が検出性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-27T06:36:20Z) - Dual-Level Boost Network for Long-Tail Prohibited Items Detection in X-ray Security Inspection [81.11400642272976]
X線検査における禁止項目の長期分布は,検出モデルにとって大きな課題となる。
我々は,X線セキュリティスクリーニングにおけるこれらの課題を克服するために,DBNet(Dual-level Boost Network)を提案する。
提案手法では,(1) X線画像の特徴にインスパイアされた,ポアソンブレンディングを用いた特定のデータ拡張戦略を導入し,データ不均衡を効果的に軽減できるレアアイテムのリアルな合成例を生成する。
論文 参考訳(メタデータ) (2024-11-27T06:13:56Z) - HF-Fed: Hierarchical based customized Federated Learning Framework for X-Ray Imaging [0.0]
臨床応用では、X線技術はマンモグラフィーのような非侵襲的な検査に不可欠であり、重要な解剖学的情報を提供する。
X線再構成は、内部構造の詳細な視覚的表現、診断や治療を侵襲的に行うことなく行うための医療画像において重要である。
近年の深層学習の進歩はX線再構成において有望であるが,従来のDL手法では大規模なデータセットの集約を必要とすることが多い。
本稿では,HF-Fed(Hierarchical Framework-based Federated Learning method)を導入し,X線画像のカスタマイズを行う。
論文 参考訳(メタデータ) (2024-07-25T05:21:48Z) - Position-Guided Prompt Learning for Anomaly Detection in Chest X-Rays [46.78926066405227]
胸部X線異常検出は重要な課題である。
近年,多数の医用画像に基づいて事前トレーニングされたCLIPベースの手法は,ゼロ/フェーショットダウンストリームタスクにおいて顕著な性能を示した。
凍結したCLIPモデルにタスクデータを適応させる位置誘導型プロンプト学習法を提案する。
論文 参考訳(メタデータ) (2024-05-20T12:11:41Z) - Breaking with Fixed Set Pathology Recognition through Report-Guided
Contrastive Training [23.506879497561712]
我々は、非構造化医療報告から直接概念を学ぶために、対照的なグローバルローカルなデュアルエンコーダアーキテクチャを採用している。
疾患分類のための大規模胸部X線データセットMIMIC-CXR,CheXpert,ChestX-Ray14について検討した。
論文 参考訳(メタデータ) (2022-05-14T21:44:05Z) - Contrastive Attention for Automatic Chest X-ray Report Generation [124.60087367316531]
ほとんどの場合、正常領域が胸部X線像全体を支配し、これらの正常領域の対応する記述が最終報告を支配している。
本稿では,現在の入力画像と通常の画像を比較してコントラスト情報を抽出するContrastive Attention(CA)モデルを提案する。
2つの公開データセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-13T11:20:31Z) - Occluded Prohibited Items Detection: an X-ray Security Inspection
Benchmark and De-occlusion Attention Module [50.75589128518707]
我々はOPIXrayというセキュリティ検査のための最初の高品質なオブジェクト検出データセットをコントリビュートする。
OPIXrayは、空港のプロの検査官が手動で注記した「カッター」に焦点をあてた。
本稿では,プラグイン・アンド・プレイモジュールであるデオクルージョン・アテンション・モジュール(DOAM)を提案する。
論文 参考訳(メタデータ) (2020-04-18T16:10:55Z) - Towards Automatic Threat Detection: A Survey of Advances of Deep
Learning within X-ray Security Imaging [0.6091702876917279]
本稿では,従来の機械学習および現代のディープラーニングアプリケーションに分野を分類することで,コンピュータ化されたX線セキュリティ画像アルゴリズムをレビューすることを目的とする。
提案された分類学は、教師付き、半教師付き、教師なしの学習へのディープラーニングアプローチの使用をサブカテゴリ化している。
深層学習の現在と将来の動向に基づいて,X線セキュリティ画像の議論と今後の方向性を示す。
論文 参考訳(メタデータ) (2020-01-05T19:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。