論文の概要: MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection
- arxiv url: http://arxiv.org/abs/2506.03654v1
- Date: Wed, 04 Jun 2025 07:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.202343
- Title: MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection
- Title(参考訳): MambaNeXt-YOLO:リアルタイム物体検出のためのハイブリッド状態空間モデル
- Authors: Xiaochun Lei, Siqi Wu, Weilin Wu, Zetao Jiang,
- Abstract要約: YOLOシリーズモデルは、速度と精度のバランスをとることで、強力なベンチマークを設定している。
トランスフォーマーは自己アテンション機構のため、計算の複雑さが高い。
MambaNeXt-YOLOは精度と効率のバランスをとる新しいオブジェクト検出フレームワークである。
- 参考スコア(独自算出の注目度): 4.757840725810513
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time object detection is a fundamental but challenging task in computer vision, particularly when computational resources are limited. Although YOLO-series models have set strong benchmarks by balancing speed and accuracy, the increasing need for richer global context modeling has led to the use of Transformer-based architectures. Nevertheless, Transformers have high computational complexity because of their self-attention mechanism, which limits their practicality for real-time and edge deployments. To overcome these challenges, recent developments in linear state space models, such as Mamba, provide a promising alternative by enabling efficient sequence modeling with linear complexity. Building on this insight, we propose MambaNeXt-YOLO, a novel object detection framework that balances accuracy and efficiency through three key contributions: (1) MambaNeXt Block: a hybrid design that integrates CNNs with Mamba to effectively capture both local features and long-range dependencies; (2) Multi-branch Asymmetric Fusion Pyramid Network (MAFPN): an enhanced feature pyramid architecture that improves multi-scale object detection across various object sizes; and (3) Edge-focused Efficiency: our method achieved 66.6\% mAP at 31.9 FPS on the PASCAL VOC dataset without any pre-training and supports deployment on edge devices such as the NVIDIA Jetson Xavier NX and Orin NX.
- Abstract(参考訳): リアルタイム物体検出はコンピュータビジョンにおける基本的な課題であるが、特に計算資源が限られている場合の課題である。
YOLOシリーズモデルは、スピードと精度のバランスをとることで強力なベンチマークを設定しているが、よりリッチなグローバルコンテキストモデリングの必要性が高まっ、Transformerベースのアーキテクチャが利用されるようになった。
それにもかかわらず、Transformerの自己保持機構により、リアルタイムおよびエッジデプロイメントの実用性が制限されるため、計算の複雑さが高い。
これらの課題を克服するために、近年のMambaのような線形状態空間モデルの開発は、線形複雑性を伴う効率的なシーケンスモデリングを可能にすることで、有望な代替手段を提供する。
MambaNeXt-YOLOは,3つの重要なコントリビューションを通じて精度と効率のバランスをとる新しいオブジェクト検出フレームワークである。(1)MambaNeXt Block:CNNをMambaと統合してローカル特徴と長距離依存関係の両方を効果的にキャプチャするハイブリッド設計,(2)マルチブランチ非対称核融合ピラミッドネットワーク(MAFPN):様々なオブジェクトサイズにわたるマルチスケールオブジェクト検出を改善する拡張機能ピラミッドアーキテクチャ,(3)エッジ指向の効率性:当社の手法は,PASCAL VOCデータセット上で事前トレーニングなしで66.6\%のmAPを達成し,NVIDIA Jetson Xavier NXやOrinNXなどのエッジデバイスへのデプロイメントをサポートする。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Mamba YOLO: A Simple Baseline for Object Detection with State Space Model [10.44725284994877]
YOLOシリーズは、リアルタイムオブジェクト検出のための新しいベンチマークを設定した。
トランスフォーマーベースの構造が、最も強力なソリューションとして登場した。
しかし、自己注意機構の二次的な複雑さは計算負担を増加させる。
簡単なが効果的なベースラインアプローチであるYolo Mambaを紹介する。
論文 参考訳(メタデータ) (2024-06-09T15:56:19Z) - Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model [18.30032389736101]
状態空間モデル(SSM)に基づくMambaモデルは、線形複雑性のみを持つ複数の領域でTransformerより優れている。
我々は,局所的特徴抽出を強化するために,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:20:27Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。