論文の概要: Beyond RGB: Leveraging Vision Transformers for Thermal Weapon Segmentation
- arxiv url: http://arxiv.org/abs/2510.16913v1
- Date: Sun, 19 Oct 2025 16:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.204055
- Title: Beyond RGB: Leveraging Vision Transformers for Thermal Weapon Segmentation
- Title(参考訳): RGBを超える: 熱兵器セグメンテーションのための視覚変換器の活用
- Authors: Akhila Kambhatla, Ahmed R Khaled,
- Abstract要約: ビジョントランスフォーマー(ViT)は、RGBセグメンテーションタスクにおいて最先端の結果を達成したが、熱兵器セグメンテーションのポテンシャルは未定のままである。
この研究は、カスタムの熱データセット上でバイナリ兵器セグメンテーションのための4つのトランスフォーマーベースのアーキテクチャを適応し、評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thermal weapon segmentation is crucial for surveillance and security applications, enabling robust detection under lowlight and visually obscured conditions where RGB-based systems fail. While convolutional neural networks (CNNs) dominate thermal segmentation literature, their ability to capture long-range dependencies and fine structural details is limited. Vision Transformers (ViTs), with their global context modeling capabilities, have achieved state-of-the-art results in RGB segmentation tasks, yet their potential in thermal weapon segmentation remains underexplored. This work adapts and evaluates four transformer-based architectures SegFormer, DeepLabV3\+, SegNeXt, and Swin Transformer for binary weapon segmentation on a custom thermal dataset comprising 9,711 images collected from real world surveillance videos and automatically annotated using SAM2. We employ standard augmentation strategies within the MMSegmentation framework to ensure robust model training and fair architectural comparison. Experimental results demonstrate significant improvements in segmentation performance: SegFormer-b5 achieves the highest mIoU (94.15\%) and Pixel Accuracy (97.04\%), while SegFormer-b0 provides the fastest inference speed (98.32 FPS) with competitive mIoU (90.84\%). SegNeXt-mscans offers balanced performance with 85.12 FPS and 92.24\% mIoU, and DeepLabV3\+ R101-D8 reaches 92.76\% mIoU at 29.86 FPS. The transformer architectures demonstrate robust generalization capabilities for weapon detection in low-light and occluded thermal environments, with flexible accuracy-speed trade-offs suitable for diverse real-time security applications.
- Abstract(参考訳): 熱兵器のセグメンテーションは、監視とセキュリティの用途に不可欠であり、RGBベースのシステムが故障した場合、低照度で視覚的に不明瞭な条件下で堅牢な検出を可能にする。
畳み込みニューラルネットワーク(CNN)は熱セグメンテーションの文献を支配しているが、長距離依存と微細構造の詳細を捉える能力は限られている。
ビジョントランスフォーマー(ViT)は、そのグローバルなコンテキストモデリング能力を持ち、RGBセグメンテーションタスクにおいて最先端の結果を達成したが、熱兵器セグメンテーションにおけるその可能性はまだ未定である。
この研究は、現実世界の監視ビデオから収集されSAM2を使用して自動的に注釈付けされる9,711の画像からなるカスタム熱データセット上で、バイナリ兵器セグメンテーションのためのSegFormer、DeepLabV3\+、SegNeXt、Swin Transformerの4つのトランスフォーマーベースのアーキテクチャを適応し、評価する。
我々は、堅牢なモデルトレーニングと公正なアーキテクチャ比較を保証するため、MMSegmentationフレームワーク内で標準的な拡張戦略を採用しています。
SegFormer-b5 は mIoU (94.15\%) と Pixel Accuracy (97.04\%) を達成し、SegFormer-b0 は mIoU (90.84\%) で最速の推論速度 (98.32 FPS) を提供する。
SegNeXt-mscans は 85.12 FPS と 92.24\% mIoU のバランス性能を提供し、DeepLabV3\+ R101-D8 は 29.86 FPS で 92.76\% mIoU に達した。
トランスアーキテクチャは、様々なリアルタイムセキュリティアプリケーションに適したフレキシブルな精度と速度のトレードオフを備えた、低照度および隠蔽熱環境における兵器検出の堅牢な一般化機能を示す。
関連論文リスト
- ArmFormer: Lightweight Transformer Architecture for Real-Time Multi-Class Weapon Segmentation and Classification [1.7205106391379026]
ArmFormerは軽量なトランスフォーマーベースのセマンティックセグメンテーションフレームワークである。
本手法では,CBAMアンハンスエンコーダバックボーンとアテンション統合型ハンバーガーデコーダを組み合わせることで,マルチクラス兵器セグメンテーションを実現する。
4.886GのFLOPと3.66Mのパラメータだけで、ArmFormerは最大48倍の計算を必要とする重いモデルより優れている。
論文 参考訳(メタデータ) (2025-10-19T14:33:20Z) - Global Average Feature Augmentation for Robust Semantic Segmentation with Transformers [15.628800834793806]
セグメンテーションのための視覚変換器のロバスト性を向上させるために,チャネルワイズ機能拡張を提案する。
CWFAは、トレーニング中に最小の計算オーバーヘッドでエンコーダ当たりの全世界的な摂動を推定する。
CWFAで強化されたSegFormer-B5は、新しい最先端の84.3%の保持率を実現し、最近発表されたFAN+STLよりも0.7%改善した。
論文 参考訳(メタデータ) (2024-12-02T20:05:05Z) - Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network [37.84039482457571]
リアルタイムセマンティックセグメンテーションのための軽量多情報インタラクションネットワーク(LMIINet)を提案する。
0.72Mのパラメータと11.74GのFLOPしか持たず、LMIINetは精度と効率のバランスを保っている。
論文 参考訳(メタデータ) (2024-10-03T05:45:24Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。