論文の概要: X-ray illicit object detection using hybrid CNN-transformer neural network architectures
- arxiv url: http://arxiv.org/abs/2505.00564v1
- Date: Thu, 01 May 2025 14:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.337925
- Title: X-ray illicit object detection using hybrid CNN-transformer neural network architectures
- Title(参考訳): ハイブリッドCNN変換器ニューラルネットワークアーキテクチャを用いたX線不正物体検出
- Authors: Jorgen Cani, Christos Diou, Spyridon Evangelatos, Panagiotis Radoglou-Grammatikis, Vasileios Argyriou, Panagiotis Sarigiannidis, Iraklis Varlamis, Georgios Th. Papadopoulos,
- Abstract要約: X線セキュリティイメージングでは、文献はCNNベースの手法によって支配されている。
様々なハイブリッドCNNトランスフォーマーアーキテクチャを、共通のCNNオブジェクト検出ベースライン、すなわちYOLOv8に対して評価する。
得られたアーキテクチャは、3つの挑戦的な公開X線検査データセットで比較的評価される。
- 参考スコア(独自算出の注目度): 9.33554429903529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of X-ray security applications, even the smallest details can significantly impact outcomes. Objects that are heavily occluded or intentionally concealed pose a great challenge for detection, whether by human observation or through advanced technological applications. While certain Deep Learning (DL) architectures demonstrate strong performance in processing local information, such as Convolutional Neural Networks (CNNs), others excel in handling distant information, e.g., transformers. In X-ray security imaging the literature has been dominated by the use of CNN-based methods, while the integration of the two aforementioned leading architectures has not been sufficiently explored. In this paper, various hybrid CNN-transformer architectures are evaluated against a common CNN object detection baseline, namely YOLOv8. In particular, a CNN (HGNetV2) and a hybrid CNN-transformer (Next-ViT-S) backbone are combined with different CNN/transformer detection heads (YOLOv8 and RT-DETR). The resulting architectures are comparatively evaluated on three challenging public X-ray inspection datasets, namely EDS, HiXray, and PIDray. Interestingly, while the YOLOv8 detector with its default backbone (CSP-DarkNet53) is generally shown to be advantageous on the HiXray and PIDray datasets, when a domain distribution shift is incorporated in the X-ray images (as happens in the EDS datasets), hybrid CNN-transformer architectures exhibit increased robustness. Detailed comparative evaluation results, including object-level detection performance and object-size error analysis, demonstrate the strengths and weaknesses of each architectural combination and suggest guidelines for future research. The source code and network weights of the models employed in this study are available at https://github.com/jgenc/xray-comparative-evaluation.
- Abstract(参考訳): X線セキュリティアプリケーションの分野では、最小の細部でさえ結果に大きな影響を及ぼす可能性がある。
密閉された、あるいは意図的に隠された物体は、人間の観察でも高度な技術応用でも、検出には大きな課題となる。
特定のディープラーニング(DL)アーキテクチャは、CNN(Convolutional Neural Networks)のようなローカル情報を処理する上で、強力なパフォーマンスを示しているが、他のアーキテクチャは、例えば、トランスフォーマーのような遠い情報を扱うのに優れている。
X線セキュリティイメージングでは、文献はCNNベースの手法によって支配されているが、前述の2つの主要なアーキテクチャの統合は十分に検討されていない。
本稿では,CNNオブジェクト検出ベースラインであるYOLOv8に対して,様々なハイブリッドCNN変換器アーキテクチャの評価を行う。
特に、CNN(HGNetV2)とハイブリッドCNN変換器(Next-ViT-S)のバックボーンは、異なるCNN/トランスフォーマー検出ヘッド(YOLOv8およびRT-DETR)と組み合わせられる。
得られたアーキテクチャは、EDS、HiXray、PIDrayという3つの挑戦的な公開X線検査データセットで比較的評価される。
興味深いことに、デフォルトのバックボーンを持つYOLOv8検出器(CSP-DarkNet53)は、一般的にHiXrayおよびPIDrayデータセットで有利であることが示されているが、ドメイン分布シフトがX線画像(EDSデータセットで起こるような)に組み込まれている場合、ハイブリッドCNN変換アーキテクチャはロバスト性の向上を示す。
オブジェクトレベルの検出性能とオブジェクトサイズエラー解析を含む詳細な比較評価結果は、各アーキテクチャの組み合わせの長所と短所を実証し、今後の研究ガイドラインを提案する。
この研究で使用されたモデルのソースコードとネットワークの重み付けはhttps://github.com/jgenc/xray-comparative-evaluationで確認できる。
関連論文リスト
- Real-Time Anomaly Detection in Video Streams [0.0]
この論文は、Othello社とIASD研究所との間のCIFRE協定の一部である。
目的は、ビデオストリーム内のリアルタイムな危険を検出する人工知能システムを開発することである。
論文 参考訳(メタデータ) (2024-11-29T14:24:33Z) - Illicit object detection in X-ray images using Vision Transformers [6.728794938150435]
Illicitオブジェクト検出は、さまざまな高セキュリティ場所で実施される重要なタスクである。
本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。
論文 参考訳(メタデータ) (2024-03-27T22:36:02Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - DLSIA: Deep Learning for Scientific Image Analysis [45.81637398863868]
DLSIAはPythonベースの機械学習ライブラリで、さまざまな科学的領域にまたがって、さまざまなカスタマイズ可能な畳み込みニューラルネットワーク(CNN)アーキテクチャを持つ科学者や研究者に権限を与える。
DLSIAは、オートエンコーダ、チューニング可能なU-Net、パラメータリーン混合スケールネットワーク(MSDNets)などの使いやすいアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-08-02T21:32:41Z) - A heterogeneous group CNN for image super-resolution [127.2132400582117]
畳み込みニューラルネットワーク(CNN)は、深いアーキテクチャを通して顕著な性能を得た。
異種グループSR CNN(HGSRCNN)を,異なるタイプの構造情報を利用して高品質な画像を得る。
論文 参考訳(メタデータ) (2022-09-26T04:14:59Z) - Self-Supervised Masked Convolutional Transformer Block for Anomaly
Detection [122.4894940892536]
本稿では, 自己監督型マスク型畳み込み変圧器ブロック (SSMCTB) について述べる。
本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,およびハマーロスに基づく新たな自己教師型目標を用いて拡張する。
論文 参考訳(メタデータ) (2022-09-25T04:56:10Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Classification of diffraction patterns using a convolutional neural
network in single particle imaging experiments performed at X-ray
free-electron lasers [53.65540150901678]
X線自由電子レーザー(XFEL)における単一粒子イメージング(SPI)は、その自然環境における粒子の3次元構造を決定するのに特に適している。
再建を成功させるためには、単一のヒットに由来する回折パターンを多数の取得パターンから分離する必要がある。
本稿では,この課題を画像分類問題として定式化し,畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて解決することを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:03:14Z) - Neural Architecture Dilation for Adversarial Robustness [56.18555072877193]
畳み込みニューラルネットワークの欠点は、敵の攻撃に弱いことである。
本稿では, 良好な精度を有する背骨CNNの対角的堅牢性を向上させることを目的とする。
最小限の計算オーバーヘッドの下では、拡張アーキテクチャはバックボーンCNNの標準的な性能と親和性が期待できる。
論文 参考訳(メタデータ) (2021-08-16T03:58:00Z) - Receptive Field Regularization Techniques for Audio Classification and
Tagging with Deep Convolutional Neural Networks [7.9495796547433395]
CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。
我々は,CNNのRFを制御し,結果のアーキテクチャを体系的にテストする,いくつかの系統的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-26T08:36:29Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。