論文の概要: STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection
- arxiv url: http://arxiv.org/abs/2504.02823v1
- Date: Thu, 03 Apr 2025 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:10.221410
- Title: STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection
- Title(参考訳): SING-BEE:実世界のX線バッグセキュリティ検査のためのビジョンランゲージモデルに向けて
- Authors: Divya Velayudhan, Abdelfatah Ahmed, Mohamad Alansari, Neha Gour, Abderaouf Behouch, Taimur Hassan, Syed Talal Wasim, Nabil Maalej, Muzammal Naseer, Juergen Gall, Mohammed Bennamoun, Ernesto Damiani, Naoufel Werghi,
- Abstract要約: STCrayは、21の脅威カテゴリにわたる46,642のイメージキャプチャペアスキャンからなる、最初のマルチモーダルX線バッグセキュリティデータセットである。
STCrayはドメインを意識したコヒーレントなキャプションを保証する特別なプロトコルで慎重に開発されています。
これにより、さまざまな視覚言語タスクをサポートするSTING-BEEという、ドメイン対応のビジュアルAIアシスタントをトレーニングすることができます。
- 参考スコア(独自算出の注目度): 43.69783848100359
- License:
- Abstract: Advancements in Computer-Aided Screening (CAS) systems are essential for improving the detection of security threats in X-ray baggage scans. However, current datasets are limited in representing real-world, sophisticated threats and concealment tactics, and existing approaches are constrained by a closed-set paradigm with predefined labels. To address these challenges, we introduce STCray, the first multimodal X-ray baggage security dataset, comprising 46,642 image-caption paired scans across 21 threat categories, generated using an X-ray scanner for airport security. STCray is meticulously developed with our specialized protocol that ensures domain-aware, coherent captions, that lead to the multi-modal instruction following data in X-ray baggage security. This allows us to train a domain-aware visual AI assistant named STING-BEE that supports a range of vision-language tasks, including scene comprehension, referring threat localization, visual grounding, and visual question answering (VQA), establishing novel baselines for multi-modal learning in X-ray baggage security. Further, STING-BEE shows state-of-the-art generalization in cross-domain settings. Code, data, and models are available at https://divs1159.github.io/STING-BEE/.
- Abstract(参考訳): コンピュータ支援スクリーニング(CAS)システムの進歩は、X線バッグスキャンにおけるセキュリティ脅威の検出を改善するために不可欠である。
しかし、現在のデータセットは現実世界、高度な脅威、隠蔽戦術の表現に限られており、既存のアプローチは事前に定義されたラベルを持つクローズドセットパラダイムによって制約されている。
これらの課題に対処するために、空港のセキュリティのためにX線スキャナーを用いて生成された、21の脅威カテゴリにわたる46,642のイメージキャプチャペアスキャンからなる、最初のマルチモーダルX線バッグセキュリティデータセットであるSTCrayを紹介した。
STCrayは、ドメインを意識したコヒーレントなキャプションを保証し、X線バッグのセキュリティにおけるデータに続くマルチモーダル命令を導出する特別なプロトコルで慎重に開発されている。
これにより、シーン理解、脅威のローカライゼーションの参照、視覚的接地、視覚的質問応答(VQA)など、さまざまな視覚言語タスクをサポートするSING-BEEというドメイン認識ビジュアルAIアシスタントをトレーニングし、X線バッグセキュリティにおけるマルチモーダル学習のための新しいベースラインを確立することができます。
さらに、SING-BEEはドメイン間設定における最先端の一般化を示す。
コード、データ、モデルはhttps://divs1159.github.io/STING-BEE/.comで入手できる。
関連論文リスト
- Enhancing Prohibited Item Detection through X-ray-Specific Augmentation and Contextual Feature Integration [81.11400642272976]
X線は、長い尾の分布とX線イメージングの特徴のために、アイテム検出が禁止されている。
コピーペーストやミックスアップのような従来のデータ拡張戦略は、まれなアイテムの検出を改善するのに効果がない。
これらの課題に対処するために,X-ray Imaging-driven Detection Network (XIDNet)を提案する。
論文 参考訳(メタデータ) (2024-11-27T06:13:56Z) - X-Adv: Physical Adversarial Object Attacks against X-ray Prohibited Item
Detection [113.10386151761682]
テクスチャフリーなX線画像を対象とした敵攻撃は未発見である。
本稿では,X線禁止項目検出を目的とした敵攻撃の研究に向けて第一歩を踏み出す。
我々は,X線検出器を消毒できる対向剤として機能する物理的に印刷可能な金属を生成するために,X-Advを提案する。
論文 参考訳(メタデータ) (2023-02-19T06:31:17Z) - Temporal Fusion Based Mutli-scale Semantic Segmentation for Detecting
Concealed Baggage Threats [12.895636885728852]
時間的手荷物X線画像を利用して、隠蔽されたオブジェクトを効果的にスクリーニングするフレームワークは存在しない。
本稿では, 連続したスキャンを入力として行う, 時間融合駆動型マルチスケール残留型エンコーダデコーダを提案する。
提案するフレームワークは,GDXrayデータセット上で,さまざまなメトリクスで競合する。
論文 参考訳(メタデータ) (2021-11-04T06:19:52Z) - Unsupervised Anomaly Instance Segmentation for Baggage Threat
Recognition [39.40595024569702]
本稿では,X線スキャンにおける手荷物の脅威を,根拠となる真理ラベルを必要とせず,異常として認識する,新しい教師なしの異常なインスタンスセグメンテーションフレームワークを提案する。
そのスタイリング能力のおかげで、フレームワークは一度だけ訓練され、推論段階では、スキャナーの仕様にかかわらず、反バンドアイテムを検出して抽出する。
提案した4つの公共荷物X線データセットの徹底的な評価は、再学習なしに、競争性能を達成できることを実証している。
論文 参考訳(メタデータ) (2021-07-15T13:56:55Z) - Over-sampling De-occlusion Attention Network for Prohibited Items
Detection in Noisy X-ray Images [35.35752470993847]
セキュリティ検査は、スーツケースの個人持ち物のX線スキャンです。
一般的な画像認識データセットを通じてトレーニングされた従来のCNNベースのモデルは、このシナリオで十分なパフォーマンスを達成できない。
新規な脱閉塞注意モジュールと新しいオーバーサンプリングトレーニング戦略からなるオーバーサンプリング脱閉塞注意ネットワーク(DOAM-O)を提案する。
論文 参考訳(メタデータ) (2021-03-01T07:17:37Z) - Trainable Structure Tensors for Autonomous Baggage Threat Detection
Under Extreme Occlusion [45.39173572825739]
本稿では、トレーニング可能な構造テンソルを用いて、隠蔽・散布されたコントラバンドアイテムの輪郭をハイライトする新しいインスタンスセグメンテーションフレームワークを提案する。
4種類のX線スキャナーから得られたグレースケールとカラースキャンの組み合わせで検証された唯一のフレームワークである。
論文 参考訳(メタデータ) (2020-09-28T09:12:10Z) - Occluded Prohibited Items Detection: an X-ray Security Inspection
Benchmark and De-occlusion Attention Module [50.75589128518707]
我々はOPIXrayというセキュリティ検査のための最初の高品質なオブジェクト検出データセットをコントリビュートする。
OPIXrayは、空港のプロの検査官が手動で注記した「カッター」に焦点をあてた。
本稿では,プラグイン・アンド・プレイモジュールであるデオクルージョン・アテンション・モジュール(DOAM)を提案する。
論文 参考訳(メタデータ) (2020-04-18T16:10:55Z) - Cascaded Structure Tensor Framework for Robust Identification of Heavily
Occluded Baggage Items from X-ray Scans [45.39173572825739]
本稿では, 密閉・散在した荷物から疑わしいアイテムを自動的に抽出し, 認識することのできるケースケード構造テンソルフレームワークを提案する。
提案フレームワークは,GDXrayおよびSIXrayデータセットから1067,381個のX線スキャンを用いて,厳密に評価されている。
論文 参考訳(メタデータ) (2020-04-14T20:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。