論文の概要: DAGNet: A Dual-View Attention-Guided Network for Efficient X-ray Security Inspection
- arxiv url: http://arxiv.org/abs/2502.01710v4
- Date: Mon, 05 May 2025 08:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 16:45:22.79063
- Title: DAGNet: A Dual-View Attention-Guided Network for Efficient X-ray Security Inspection
- Title(参考訳): DAGNet: 効率的なX線セキュリティ検査のためのデュアルビューアテンションガイドネットワーク
- Authors: Shilong Hong, Yanzhou Zhou, Weichao Xu,
- Abstract要約: 我々は、効率的なX線セキュリティ検査(DAGNet)のためのデュアルビュー注意誘導ネットワークを提案する。
本研究は,共有重み付きバックボーンネットワークを基盤として,協調動作する3つの重要なモジュールを構築した。
DAGNetは、複数のバックボーンアーキテクチャにまたがる既存の最先端アプローチよりも優れていることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 5.161531917413708
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid development of modern transportation systems and the exponential growth of logistics volumes, intelligent X-ray-based security inspection systems play a crucial role in public safety. Although single-view X-ray baggage scanner is widely deployed, they struggles to accurately identify contraband in complex stacking scenarios due to strong viewpoint dependency and inadequate feature representation. To address this, we propose a Dual-View Attention-Guided Network for Efficient X-ray Security Inspection (DAGNet). This study builds on a shared-weight backbone network as the foundation and constructs three key modules that work together: (1) Frequency Domain Interaction Module (FDIM) dynamically enhances features by adjusting frequency components based on inter-view relationships; (2) Dual-View Hierarchical Enhancement Module (DVHEM) employs cross-attention to align features between views and capture hierarchical associations; (3) Convolutional Guided Fusion Module (CGFM) fuses features to suppress redundancy while retaining critical discriminative information. Collectively, these modules substantially improve the performance of dual-view X-ray security inspection. Experimental results demonstrate that DAGNet outperforms existing state-of-the-art approaches across multiple backbone architectures. The code is available at:https://github.com/ShilongHong/DAGNet.
- Abstract(参考訳): 近代的な輸送システムの急速な発展と物流量の増加により、インテリジェントなX線ベースのセキュリティ検査システムが公共の安全において重要な役割を担っている。
シングルビューX線バッグスキャナは広く展開されているが、強い視点依存性と不適切な特徴表現のため、複雑な積み重ねシナリオにおけるコントラバンドの正確な識別に苦慮している。
そこで本稿では,Dual-View Attention-Guided Network for Efficient X-ray Security Inspection (DAGNet)を提案する。
本研究では,(1)周波数領域相互作用モジュール(FDIM, Frequency Domain Interaction Module, FDIM)は,ビュー間の関係に基づいて周波数成分を調整することで,動的に機能を強化する。(2)デュアルビュー階層拡張モジュール(DVHEM, Dual-View Hierarchical Enhancement Module, DVHEM, DVHEM)は,ビュー間の特徴の整合と階層的関連性の獲得,(3)畳み込み誘導核融合モジュール(CGFM, Convolutional Guided Fusion Module)は,重要な識別情報を保持しながら冗長性を抑えるために特徴を融合させる。
まとめると、これらのモジュールはデュアルビューX線セキュリティ検査の性能を大幅に改善する。
DAGNetは、複数のバックボーンアーキテクチャにまたがる既存の最先端アプローチよりも優れていることを示す実験結果が得られた。
コードはhttps://github.com/ShilongHong/DAGNetで公開されている。
関連論文リスト
- MSSFC-Net:Enhancing Building Interpretation with Multi-Scale Spatial-Spectral Feature Collaboration [4.480146005071275]
リモートセンシング画像からの解釈を構築するには、主に2つの基本的なタスクがある。
リモートセンシング画像における共同ビルディング抽出と変更検出のためのマルチスケール空間スペクトル特徴協調型デュアルタスクネットワーク(MSSFC-Net)を提案する。
論文 参考訳(メタデータ) (2025-04-01T13:10:23Z) - Dynamic Cross-Modal Feature Interaction Network for Hyperspectral and LiDAR Data Classification [66.59320112015556]
ハイパースペクトル画像(HSI)とLiDARデータ共同分類は難しい課題である。
DCMNet(Dynamic Cross-Modal Feature Interaction Network)を提案する。
BSAB(Bilinear Spatial Attention Block)、BCAB(Bilinear Channel Attention Block)、ICB(Integration Convolutional Block)の3つの機能相互作用ブロックを導入している。
論文 参考訳(メタデータ) (2025-03-10T05:50:13Z) - Multi-Scale Cross-Fusion and Edge-Supervision Network for Image Splicing Localization [13.776343759641343]
ISLのためのマルチスケールクロスフュージョンおよびエッジスーパービジョンネットワークを提案する。
本フレームワークは, クロスフュージョン, エッジマスク予測, エッジスーパービジョンローカライゼーションの3つの重要なステップで構成されている。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T03:10:04Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。