論文の概要: Taming Generative Synthetic Data for X-ray Prohibited Item Detection
- arxiv url: http://arxiv.org/abs/2511.15299v1
- Date: Wed, 19 Nov 2025 10:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.745959
- Title: Taming Generative Synthetic Data for X-ray Prohibited Item Detection
- Title(参考訳): X線禁止項目検出のための生成合成データのモデリング
- Authors: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei,
- Abstract要約: 禁止アイテム検出モデルのトレーニングには、大量のX線セキュリティイメージが必要である。
合成画像のX線セキュリティ画像合成によるデータセットのスケールアップ
テキスト・ツー・イメージ生成に基づくワンステージX線セキュリティ画像合成パイプライン(Xsyn)を提案する。
- 参考スコア(独自算出の注目度): 48.23410488654841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.
- Abstract(参考訳): 禁止アイテム検出モデルのトレーニングには大量のX線セキュリティイメージが必要であるが、これらの画像の収集と注釈は時間と労力を要する。
データ不足に対処するため、X線セキュリティ画像合成法は、合成画像を用いてデータセットをスケールアップする。
しかし、従来の手法は主に2段階のパイプラインを踏襲し、第1段階において労働集約的な前景抽出を行い、第2段階において合成画像を作成する。
このようなパイプラインは、避けられない余分な労働コストを導入し、効率的ではない。
本稿では,テキスト・ツー・イメージ生成に基づくワンステージX線セキュリティ画像合成パイプライン(Xsyn)を提案する。
クロス・アテンション・リファインメント(CAR)戦略は拡散モデルからのクロス・アテンション・マップを利用して境界ボックスアノテーションを洗練する。
背景閉塞モデリング(BOM)戦略は、画像の複雑さを高めるために潜在空間における背景閉塞を明示的にモデル化する。
我々の知る限り、Xsynは従来の方法と比較して、余分な労力を要さずに高品質なX線セキュリティ画像合成を実現する最初の方法である。
実験により,本手法は従来手法よりも1.2%mAP改善で優れており,その合成画像は各種X線セキュリティデータセットおよび検出器の項目検出性能の向上に有用であることがわかった。
コードはhttps://github.com/pILLOW-1/Xsyn/で入手できる。
関連論文リスト
- Synthetic Lung X-ray Generation through Cross-Attention and Affinity Transformation [4.956977275061966]
本稿では,合成肺X線画像から高精度なセマンティックマスクの自動生成手法を提案する。
テキストと画像間の相互アテンションマッピングを使用して、テキスト駆動画像合成をセマンティックマスク生成に拡張する。
実験結果から,本手法を用いて生成した合成データに基づいて学習したセグメンテーションモデルは,実際のデータセットで学習したモデルと同等であり,場合によっては同等であることがわかった。
論文 参考訳(メタデータ) (2025-03-10T11:48:26Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - BGM: Background Mixup for X-ray Prohibited Items Detection [75.58709178012502]
background Mixup (BGM) は、X線セキュリティ画像領域に適したバックグラウンドベースの拡張技術である。
従来の方法とは異なり、BGMは物理特性の詳細な分析に基づいている。
BGMは,1) テクスチャ構造と2) 材料の変化の両方の領域に背景パッチを混合し,複雑な背景手がかりのモデルに役立てる。
論文 参考訳(メタデータ) (2024-11-30T12:26:55Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Synthesis of COVID-19 Chest X-rays using Unpaired Image-to-Image
Translation [6.22964000148682]
我々は、教師なしドメイン適応アプローチを用いて、新型コロナウイルスの胸部X線画像の最初のオープンデータセットを構築した。
各種ディープラーニングアーキテクチャを用いたCOVID-19検出では,大幅な性能向上が見られた。
公開されているベンチマークデータセットは、21,295の合成新型コロナウイルスの胸部X線画像で構成されています。
論文 参考訳(メタデータ) (2020-10-20T13:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。