論文の概要: Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection
- arxiv url: http://arxiv.org/abs/2511.18385v1
- Date: Sun, 23 Nov 2025 10:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.814137
- Title: Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection
- Title(参考訳): 第二視点画像は言語になれるか? X線禁止項目検出のための幾何学的・意味的クロスモーダル推論
- Authors: Chuang Peng, Renshuai Tao, Zhongwei Ren, Xianglong Liu, Yunchao Wei,
- Abstract要約: 我々は、X線検査のための最初の総合的なベンチマークであるDualXrayBenchを紹介する。
本稿では,12カテゴリにまたがって,45,613対のデュアルビュー画像対からなるキャプションコーパスを紹介する。
本稿では,多モーダルモデルとして幾何学的(クロスビュー)-意味論的(クロスモーダル)共振器を提案する。
- 参考スコア(独自算出の注目度): 55.44671451998018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic X-ray prohibited items detection is vital for security inspection and has been widely studied. Traditional methods rely on visual modality, often struggling with complex threats. While recent studies incorporate language to guide single-view images, human inspectors typically use dual-view images in practice. This raises the question: can the second view provide constraints similar to a language modality? In this work, we introduce DualXrayBench, the first comprehensive benchmark for X-ray inspection that includes multiple views and modalities. It supports eight tasks designed to test cross-view reasoning. In DualXrayBench, we introduce a caption corpus consisting of 45,613 dual-view image pairs across 12 categories with corresponding captions. Building upon these data, we propose the Geometric (cross-view)-Semantic (cross-modality) Reasoner (GSR), a multimodal model that jointly learns correspondences between cross-view geometry and cross-modal semantics, treating the second-view images as a "language-like modality". To enable this, we construct the GSXray dataset, with structured Chain-of-Thought sequences: <top>, <side>, <conclusion>. Comprehensive evaluations on DualXrayBench demonstrate that GSR achieves significant improvements across all X-ray tasks, offering a new perspective for real-world X-ray inspection.
- Abstract(参考訳): セキュリティ検査には, 自動X線検査が不可欠であり, 広く研究されている。
伝統的な手法は視覚的モダリティに依存しており、しばしば複雑な脅威に苦しむ。
近年の研究では、単一のビューイメージをガイドする言語が採用されているが、人間のインスペクタは、実際にはデュアルビューイメージを使用するのが一般的である。
第2のビューは、言語のモダリティに似た制約を提供できますか?
本稿では,複数のビューとモダリティを含むX線検査のための最初の総合ベンチマークであるDualXrayBenchを紹介する。
クロスビュー推論をテストするように設計された8つのタスクをサポートする。
DualXrayBenchでは、12のカテゴリで45,613のデュアルビューイメージ対と対応するキャプションからなるキャプションコーパスを導入する。
これらのデータに基づいて, クロスビュー幾何とクロスモーダルセマンティックセマンティックセマンティックセマンティックセマンティクス(GSR)モデルを提案する。
これを実現するために,<top>,<side>,<conclusion>という,構造化されたChain-of-Thoughtシーケンスを持つGSXrayデータセットを構築した。
DualXrayBenchに関する総合的な評価は、GSRがすべてのX線タスクで大幅な改善を達成し、現実世界のX線検査の新しい視点を提供することを示している。
関連論文リスト
- Self-Supervised Multiview Xray Matching [4.033064933995391]
現在の方法は、しばしば異なるX線ビュー間の堅牢な対応を確立するのに苦労する。
手動のアノテーションを必要としない新しい自己教師型パイプラインを提案する。
提案手法では,2つ以上のX線ビューの対応を正確に予測するために,トランスフォーマーベースのトレーニングフェーズを組み込む。
論文 参考訳(メタデータ) (2025-06-30T21:56:14Z) - Dual-view X-ray Detection: Can AI Detect Prohibited Items from Dual-view X-ray Images like Humans? [78.26435264182763]
大規模デュアルビューX線(LDXray)を導入し,12のカテゴリで353,646個のインスタンスで構成されている。
デュアルビュー検出におけるヒューマンインテリジェンスをエミュレートするために,補助ビュー拡張ネットワーク(AENet)を提案する。
LDXrayデータセットの実験では、デュアルビュー機構が検出性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-27T06:36:20Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Improving Joint Learning of Chest X-Ray and Radiology Report by Word
Region Alignment [9.265044250068554]
本稿では,胸部X線画像の事前学習のためのJoImTeRNet(JoImTeRNet)を提案する。
このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。
論文 参考訳(メタデータ) (2021-09-04T22:58:35Z) - Image Separation with Side Information: A Connected Auto-Encoders Based
Approach [18.18248997032482]
両面画像のX線画像から混合X線画像を分離する問題に対処する。
本稿では,混合X線画像を両面に対応する2つの模擬X線画像に分離する「接続型」オートエンコーダに基づくニューラルニューラルネットワークアーキテクチャを提案する。
これらの実験により, 提案手法は, 最先端のX線画像分離法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-09-16T18:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。