論文の概要: ArmFormer: Lightweight Transformer Architecture for Real-Time Multi-Class Weapon Segmentation and Classification
- arxiv url: http://arxiv.org/abs/2510.16854v1
- Date: Sun, 19 Oct 2025 14:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.180901
- Title: ArmFormer: Lightweight Transformer Architecture for Real-Time Multi-Class Weapon Segmentation and Classification
- Title(参考訳): ArmFormer: リアルタイムマルチクラスのウィーポンセグメンテーションと分類のための軽量トランスフォーマーアーキテクチャ
- Authors: Akhila Kambhatla, Taminul Islam, Khaled R Ahmed,
- Abstract要約: ArmFormerは軽量なトランスフォーマーベースのセマンティックセグメンテーションフレームワークである。
本手法では,CBAMアンハンスエンコーダバックボーンとアテンション統合型ハンバーガーデコーダを組み合わせることで,マルチクラス兵器セグメンテーションを実現する。
4.886GのFLOPと3.66Mのパラメータだけで、ArmFormerは最大48倍の計算を必要とする重いモデルより優れている。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The escalating threat of weapon-related violence necessitates automated detection systems capable of pixel-level precision for accurate threat assessment in real-time security applications. Traditional weapon detection approaches rely on object detection frameworks that provide only coarse bounding box localizations, lacking the fine-grained segmentation required for comprehensive threat analysis. Furthermore, existing semantic segmentation models either sacrifice accuracy for computational efficiency or require excessive computational resources incompatible with edge deployment scenarios. This paper presents ArmFormer, a lightweight transformer-based semantic segmentation framework that strategically integrates Convolutional Block Attention Module (CBAM) with MixVisionTransformer architecture to achieve superior accuracy while maintaining computational efficiency suitable for resource-constrained edge devices. Our approach combines CBAM-enhanced encoder backbone with attention-integrated hamburger decoder to enable multi-class weapon segmentation across five categories: handgun, rifle, knife, revolver, and human. Comprehensive experiments demonstrate that ArmFormer achieves state-of-the-art performance with 80.64% mIoU and 89.13% mFscore while maintaining real-time inference at 82.26 FPS. With only 4.886G FLOPs and 3.66M parameters, ArmFormer outperforms heavyweight models requiring up to 48x more computation, establishing it as the optimal solution for deployment on portable security cameras, surveillance drones, and embedded AI accelerators in distributed security infrastructure.
- Abstract(参考訳): 武器関連暴力のエスカレートする脅威は、リアルタイムセキュリティアプリケーションにおける正確な脅威評価のために、ピクセルレベルの精度を持つ自動検出システムを必要とする。
従来の兵器検出アプローチは、粗い境界ボックスローカライゼーションのみを提供するオブジェクト検出フレームワークに依存しており、包括的脅威分析に必要なきめ細かいセグメンテーションが欠如している。
さらに、既存のセマンティックセグメンテーションモデルは、計算効率の精度を犠牲にするか、エッジデプロイメントシナリオと互換性のない過剰な計算リソースを必要とする。
本稿では,MixVisionTransformerアーキテクチャとCBAM(Convolutional Block Attention Module)を戦略的に統合し,資源制約エッジデバイスに適した計算効率を維持しつつ,優れた精度を実現するための軽量トランスフォーマーベースセマンティックセマンティックセマンティックセマンティックセマンティクスフレームワークであるArmFormerを提案する。
アプローチでは,CBAMアンハンスエンコーダのバックボーンと注意統合型ハンバーガーデコーダを組み合わせることで,拳銃,ライフル,ナイフ,リボルバー,人間という5つのカテゴリにまたがるマルチクラス兵器のセグメンテーションを可能にする。
総合的な実験により、ArmFormerは80.64% mIoUと89.13% mFscoreで最先端のパフォーマンスを達成し、82.26 FPSでリアルタイムな推論を維持した。
わずか4.886GのFLOPと3.66Mパラメータだけで、ArmFormerは最大48倍の計算を必要とするヘビー級モデルより優れており、ポータブルセキュリティカメラ、監視ドローン、組み込みAIアクセラレーターを分散セキュリティインフラに配置するための最適なソリューションとして確立されている。
関連論文リスト
- Beyond RGB: Leveraging Vision Transformers for Thermal Weapon Segmentation [0.0]
ビジョントランスフォーマー(ViT)は、RGBセグメンテーションタスクにおいて最先端の結果を達成したが、熱兵器セグメンテーションのポテンシャルは未定のままである。
この研究は、カスタムの熱データセット上でバイナリ兵器セグメンテーションのための4つのトランスフォーマーベースのアーキテクチャを適応し、評価する。
論文 参考訳(メタデータ) (2025-10-19T16:15:04Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - Cross-Layer Feature Self-Attention Module for Multi-Scale Object Detection [14.148258708632211]
Cross-Layer Feature Self-Attention Module (CFSAM)
CFSAMは、マルチスケールの機能マップ内のローカルとグローバルの両方の依存関係をホリスティックにモデル化する。
SSD300フレームワークに統合されると、CFSAMは検出性能を大幅に向上する。
論文 参考訳(メタデータ) (2025-10-16T14:25:21Z) - Confidence Aware SSD Ensemble with Weighted Boxes Fusion for Weapon Detection [0.0]
公共空間の安全と安全は極めて重要であり、兵器を正確に検出できる高度な監視システムの必要性を招いている。
単一モデル検出器は先進的であるが、困難な条件下では堅牢性に欠けることが多い。
本稿では,多様な特徴抽出バックボーンを持つシングルショットマルチボックス検出器(SSD)モデルのアンサンブルにより,検出の堅牢性を大幅に向上できるという仮説を提案する。
論文 参考訳(メタデータ) (2025-09-28T07:08:48Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - MAAM: A Lightweight Multi-Agent Aggregation Module for Efficient Image Classification Based on the MindSpore Framework [4.307728769243765]
我々はMindSporeフレームワークと統合された軽量アテンションアーキテクチャを提案する。
Multi-Agent Aggregation Module (MAAM) は3つの並列エージェントブランチを独立にパラメータ化してヘテロジニアスな特徴を抽出する。
MindSporeの動的計算グラフと演算子融合を用いて、MAAMはCIFAR-10データセット上で87.0%の精度を達成する。
論文 参考訳(メタデータ) (2025-04-18T09:19:07Z) - Efficient Adversarial Detection Frameworks for Vehicle-to-Microgrid Services in Edge Computing [6.75253870287079]
悪意あるアクターは、機械学習アルゴリズムの脆弱性を利用して、発電と分散を妨害する。
本稿では,V2Mエッジ環境における検出モデルを最適化する新しい手法を提案する。
提案手法は,モデル設計と圧縮を統一したプロセスに統合し,よりコンパクトな検出モデルを実現する。
論文 参考訳(メタデータ) (2025-03-25T03:26:49Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。