論文の概要: Mamba YOLO: A Simple Baseline for Object Detection with State Space Model
- arxiv url: http://arxiv.org/abs/2406.05835v2
- Date: Sat, 14 Dec 2024 03:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:34.291917
- Title: Mamba YOLO: A Simple Baseline for Object Detection with State Space Model
- Title(参考訳): ヨロマンバ:状態空間モデルによるオブジェクト検出のためのシンプルなベースライン
- Authors: Zeyu Wang, Chen Li, Huiying Xu, Xinzhong Zhu, Hongbo Li,
- Abstract要約: YOLOシリーズは、リアルタイムオブジェクト検出のための新しいベンチマークを設定した。
トランスフォーマーベースの構造が、最も強力なソリューションとして登場した。
しかし、自己注意機構の二次的な複雑さは計算負担を増加させる。
簡単なが効果的なベースラインアプローチであるYolo Mambaを紹介する。
- 参考スコア(独自算出の注目度): 10.44725284994877
- License:
- Abstract: Driven by the rapid development of deep learning technology, the YOLO series has set a new benchmark for real-time object detectors. Additionally, transformer-based structures have emerged as the most powerful solution in the field, greatly extending the model's receptive field and achieving significant performance improvements. However, this improvement comes at a cost as the quadratic complexity of the self-attentive mechanism increases the computational burden of the model. To address this problem, we introduce a simple yet effective baseline approach called Mamba YOLO. Our contributions are as follows: 1) We propose that the ODMamba backbone introduce a \textbf{S}tate \textbf{S}pace \textbf{M}odel (\textbf{SSM}) with linear complexity to address the quadratic complexity of self-attention. Unlike the other Transformer-base and SSM-base method, ODMamba is simple to train without pretraining. 2) For real-time requirement, we designed the macro structure of ODMamba, determined the optimal stage ratio and scaling size. 3) We design the RG Block that employs a multi-branch structure to model the channel dimensions, which addresses the possible limitations of SSM in sequence modeling, such as insufficient receptive fields and weak image localization. This design captures localized image dependencies more accurately and significantly. Extensive experiments on the publicly available COCO benchmark dataset show that Mamba YOLO achieves state-of-the-art performance compared to previous methods. Specifically, a tiny version of Mamba YOLO achieves a \textbf{7.5}\% improvement in mAP on a single 4090 GPU with an inference time of \textbf{1.5} ms. The pytorch code is available at: \url{https://github.com/HZAI-ZJNU/Mamba-YOLO}
- Abstract(参考訳): ディープラーニング技術の急速な開発により、YOLOシリーズはリアルタイムオブジェクト検出のための新しいベンチマークを設定した。
さらに、トランスフォーマーベースの構造がこの分野で最も強力なソリューションとして登場し、モデルの受容領域を大幅に拡張し、大幅な性能向上を実現している。
しかし、自己刺激機構の二次的な複雑さがモデルの計算負担を増大させるため、この改善はコストがかかる。
この問題に対処するために,ヨロマンバと呼ばれるシンプルだが効果的なベースラインアプローチを導入する。
私たちの貢献は以下の通りです。
1) ODMambaのバックボーンは, 自己注意の二次的複雑さに対処するために, 線形複雑度を伴い, \textbf{S}tate \textbf{S}pace \textbf{M}odel (\textbf{SSM})を導入することを提案する。
他の Transformer-base や SSM-base とは異なり、ODMamba は事前訓練なしでは訓練が簡単である。
2)ODMambaのマクロ構造をリアルタイムに設計し,最適ステージ比とスケーリングサイズを決定した。
3) チャネル次元をモデル化するためにマルチブランチ構造を用いたRGブロックを設計する。
この設計は、より正確に、はるかに、局所的なイメージ依存をキャプチャする。
公開されたCOCOベンチマークデータセットの大規模な実験は、Mamba YOLOが従来の方法と比較して最先端のパフォーマンスを達成したことを示している。
具体的には、小さなバージョンのYOLOのMambaは、単一の4090 GPU上でのmAPの \textbf{7.5}\%改善を実現し、推論時間は \textbf{1.5} msである。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection [18.65107742085838]
提案するMambaFusion Path Aggregation Network (MambaFusion-PAN) をネックアーキテクチャとして用いた新しいYOLOベースのOVDモデルであるMamba-YOLO-Worldを提案する。
具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。
実験の結果,COCOとLVISのベンチマークでは,ゼロショットと微調整の両方で,従来のYOLO-Worldよりも優れていた。
論文 参考訳(メタデータ) (2024-09-13T03:23:52Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation [74.65906322148997]
本稿では,画像特徴量間の複雑な高次相関を捉えるためにハイパーグラフ計算を統合する新しいオブジェクト検出手法を提案する。
Hyper-YOLOは、高度なYOLOv8-NとYOLOv9Tを12%のtextval$と9%のAPMoonLabの改善で大幅に上回っている。
論文 参考訳(メタデータ) (2024-08-09T01:21:15Z) - Spatial Transformer Network YOLO Model for Agricultural Object Detection [0.3124884279860061]
本稿では,空間変換器ネットワーク(STN)をYOLOに統合し,性能を向上させる手法を提案する。
提案するSTN-YOLOは,画像の重要な領域に着目し,モデルの有効性を高めることを目的としている。
農業オブジェクト検出のためのベンチマークデータセットと、最先端の植物表現型温室施設からの新たなデータセットにSTN-YOLOを適用した。
論文 参考訳(メタデータ) (2024-07-31T14:53:41Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space [9.68374853606234]
本稿では,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提案する。
FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強度を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。
私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。
論文 参考訳(メタデータ) (2024-05-03T03:20:37Z) - VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting [11.058879849373572]
時間的予測のためのRNNを持つVTやCNNは、時間的・空間的ダイナミクスを予測するのに相容れない結果をもたらす。
最近のMambaベースのアーキテクチャは、非常に長いシーケンスモデリング能力に熱中している。
本稿では,ビジョンマンバブロックの強度をLSTMと統合した再帰ユニットであるVMRNNセルを提案する。
論文 参考訳(メタデータ) (2024-03-25T08:26:42Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - DAMO-YOLO : A Report on Real-Time Object Detection Design [19.06518351354291]
本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。
我々は最大エントロピーの原理で導かれるMAE-NASを用いて検出バックボーンを探索する。
「首と首のデザインでは、大首と小首の規則に従っている。」
論文 参考訳(メタデータ) (2022-11-23T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。