論文の概要: A Multi-Scale Feature Fusion Framework Integrating Frequency Domain and Cross-View Attention for Dual-View X-ray Security Inspections
- arxiv url: http://arxiv.org/abs/2502.01710v1
- Date: Mon, 03 Feb 2025 15:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:12.530728
- Title: A Multi-Scale Feature Fusion Framework Integrating Frequency Domain and Cross-View Attention for Dual-View X-ray Security Inspections
- Title(参考訳): デュアルビューX線セキュリティ検査のための周波数領域とクロスビューアテンションを統合したマルチスケール機能融合フレームワーク
- Authors: Shilong Hong, Yanzhou Zhou, Weichao Xu,
- Abstract要約: シングルビューX線装置は複雑な積み重ねシナリオにおいてコントラバンドを正確に識別するのに苦労する。
デュアルビューX線セキュリティ検査画像分類に適した,革新的なマルチスケールインタラクティブ機能融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.161531917413708
- License:
- Abstract: With the rapid development of modern transportation systems and the exponential growth of logistics volumes, intelligent X-ray-based security inspection systems play a crucial role in public safety. Although single-view X-ray equipment is widely deployed, it struggles to accurately identify contraband in complex stacking scenarios due to strong viewpoint dependency and inadequate feature representation. To address this, we propose an innovative multi-scale interactive feature fusion framework tailored for dual-view X-ray security inspection image classification. The framework comprises three core modules: the Frequency Domain Interaction Module (FDIM) enhances frequency-domain features through Fourier transform; the Multi-Scale Cross-View Feature Enhancement (MSCFE) leverages cross-view attention mechanisms to strengthen feature interactions; and the Convolutional Attention Fusion Module (CAFM) efficiently fuses features by integrating channel attention with depthwise-separable convolutions. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches across multiple backbone architectures, particularly excelling in complex scenarios with occlusions and object stacking.
- Abstract(参考訳): 近代的な輸送システムの急速な発展と物流量の増加により、インテリジェントなX線ベースのセキュリティ検査システムが公共の安全において重要な役割を担っている。
シングルビューX線装置は広く展開されているが、強い視点依存性と不適切な特徴表現のため、複雑な積み重ねシナリオにおけるコントラバンドの正確な識別に苦慮している。
そこで我々は,デュアルビューX線セキュリティ検査画像分類に適した,革新的なマルチスケール・インタラクティブな機能融合フレームワークを提案する。
このフレームワークは、周波数領域相互作用モジュール(FDIM)がフーリエ変換を通じて周波数領域の機能を強化すること、マルチスケールのクロスビュー機能拡張(MSCFE)が機能相互作用を強化するためにクロスビューアテンションメカニズムを活用すること、コンボリューショナルアテンション・フュージョンモジュール(CAFM)がチャネルアテンションと深く分離可能なコンボリューションを統合することで機能を効率的に融合すること、の3つのコアモジュールで構成されている。
実験により,本手法は,複数のバックボーンアーキテクチャ,特に閉塞やオブジェクトの積み重ねを伴う複雑なシナリオにおいて,既存の最先端手法よりも優れていることが示された。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - MKF-ADS: Multi-Knowledge Fusion Based Self-supervised Anomaly Detection System for Control Area Network [9.305680247704542]
制御エリアネットワーク(英: Control Area Network, CAN)は、車両ネットワークにおける電子制御ユニット(ECU)間の通信プロトコルである。
CANは、本質的にセキュリティ上のリスクのために、厳しいセキュリティ上の課題に直面している。
本稿では,MKF-ADSと呼ばれる自己教師付き多知識融合異常検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-07T07:40:53Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。