論文の概要: Illicit object detection in X-ray images using Vision Transformers
- arxiv url: http://arxiv.org/abs/2403.19043v1
- Date: Wed, 27 Mar 2024 22:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:52:05.673523
- Title: Illicit object detection in X-ray images using Vision Transformers
- Title(参考訳): 視覚変換器を用いたX線画像における不正物体検出
- Authors: Jorgen Cani, Ioannis Mademlis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos,
- Abstract要約: Illicitオブジェクト検出は、さまざまな高セキュリティ場所で実施される重要なタスクである。
本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。
- 参考スコア(独自算出の注目度): 6.728794938150435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Illicit object detection is a critical task performed at various high-security locations, including airports, train stations, subways, and ports. The continuous and tedious work of examining thousands of X-ray images per hour can be mentally taxing. Thus, Deep Neural Networks (DNNs) can be used to automate the X-ray image analysis process, improve efficiency and alleviate the security officers' inspection burden. The neural architectures typically utilized in relevant literature are Convolutional Neural Networks (CNNs), with Vision Transformers (ViTs) rarely employed. In order to address this gap, this paper conducts a comprehensive evaluation of relevant ViT architectures on illicit item detection in X-ray images. This study utilizes both Transformer and hybrid backbones, such as SWIN and NextViT, and detectors, such as DINO and RT-DETR. The results demonstrate the remarkable accuracy of the DINO Transformer detector in the low-data regime, the impressive real-time performance of YOLOv8, and the effectiveness of the hybrid NextViT backbone.
- Abstract(参考訳): Illicitオブジェクト検出は、空港、駅、地下鉄、港など、様々な高セキュリティの場所で実施される重要なタスクである。
1時間に何千ものX線画像を調べるという、連続的で退屈な作業は、精神的に課税される可能性がある。
このようにして、ディープニューラルネットワーク(DNN)は、X線画像解析プロセスの自動化、効率の向上、セキュリティ担当者の検査負担軽減に使用することができる。
関連する文献で一般的に使用されるニューラルネットワークは、畳み込みニューラルネットワーク(CNN)であり、視覚変換器(ViT)はほとんど使われない。
このギャップに対処するため,本研究では,X線画像の不正な項目検出において,関連するViTアーキテクチャを包括的に評価する。
本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。
その結果、低データ状態におけるDINOトランスフォーマー検出器の顕著な精度、YOLOv8の顕著なリアルタイム性能、ハイブリッドNextViTバックボーンの有効性が示された。
関連論文リスト
- A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - Investigating the Robustness and Properties of Detection Transformers
(DETR) Toward Difficult Images [1.5727605363545245]
トランスフォーマーベースのオブジェクト検出器(DETR)は、マシンビジョンタスク間で大きな性能を示している。
対処すべき重要な問題は、このモデルアーキテクチャがどのように異なるイメージニュアンスを扱うことができるかである。
本研究では,DeTRの性能を異なる実験で測定し,ネットワークのベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-12T23:38:52Z) - Visual inspection for illicit items in X-ray images using Deep Learning [7.350725076596881]
X線画像におけるコントラバンドアイテムの自動検出は、公共の安全を著しく向上させる。
ディープニューラルネットワーク(DNN)に依存する現代のコンピュータビジョンアルゴリズムは、このタスクを遂行できることを証明している。
論文 参考訳(メタデータ) (2023-10-05T16:35:27Z) - AiAReSeg: Catheter Detection and Segmentation in Interventional
Ultrasound using Transformers [75.20925220246689]
血管内手術は、電離放射線を用いてカテーテルと血管を可視化するFluoroscopyの黄金標準を用いて行われる。
本研究では、最先端機械学習トランスフォーマアーキテクチャを応用して、軸干渉超音波画像シーケンス中のカテーテルを検出し、セグメント化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T19:34:12Z) - Self-Supervised Masked Convolutional Transformer Block for Anomaly
Detection [122.4894940892536]
本稿では, 自己監督型マスク型畳み込み変圧器ブロック (SSMCTB) について述べる。
本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,およびハマーロスに基づく新たな自己教師型目標を用いて拡張する。
論文 参考訳(メタデータ) (2022-09-25T04:56:10Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Simulation-Driven Training of Vision Transformers Enabling Metal
Segmentation in X-Ray Images [6.416928579907334]
本研究は,CTデータセットとCADインプラントを組み合わせたシミュレーションX線画像を生成することを提案する。
CBCT射影における金属セグメンテーションは、金属アーティファクト回避および還元アルゴリズムの前提条件となる。
本研究は,CADモデルに基づくデータ生成の柔軟性が向上し,臨床データサンプリングとラベル付けの不足を克服する手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-17T09:58:58Z) - On the impact of using X-ray energy response imagery for object
detection via Convolutional Neural Networks [17.639472693362926]
我々は,X線エネルギー応答(高,低)と有効Zの影響について,測地値と比較して検討した。
我々は、CNNアーキテクチャを評価し、そのような「Raw」変種画像で訓練されたモデルの転送可能性について検討する。
論文 参考訳(メタデータ) (2021-08-27T21:28:28Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。