論文の概要: Mamba YOLO: SSMs-Based YOLO For Object Detection
- arxiv url: http://arxiv.org/abs/2406.05835v1
- Date: Sun, 9 Jun 2024 15:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:47:48.414263
- Title: Mamba YOLO: SSMs-Based YOLO For Object Detection
- Title(参考訳): Mamba YOLO:オブジェクト検出のためのSSMベースのYOLO
- Authors: Zeyu Wang, Chen Li, Huiying Xu, Xinzhong Zhu,
- Abstract要約: Mamba-YOLOはステートスペースモデルに基づく新しい物体検出モデルである。
本報告では,マンバヨロが既存のYOLOシリーズモデルを上回る性能と競争性を示す。
- 参考スコア(独自算出の注目度): 9.879086222226617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Propelled by the rapid advancement of deep learning technologies, the YOLO series has set a new benchmark for real-time object detectors. Researchers have continuously explored innovative applications of reparameterization, efficient layer aggregation networks, and anchor-free techniques on the foundation of YOLO. To further enhance detection performance, Transformer-based structures have been introduced, significantly expanding the model's receptive field and achieving notable performance gains. However, such improvements come at a cost, as the quadratic complexity of the self-attention mechanism increases the computational burden of the model. Fortunately, the emergence of State Space Models (SSM) as an innovative technology has effectively mitigated the issues caused by quadratic complexity. In light of these advancements, we introduce Mamba-YOLO a novel object detection model based on SSM. Mamba-YOLO not only optimizes the SSM foundation but also adapts specifically for object detection tasks. Given the potential limitations of SSM in sequence modeling, such as insufficient receptive field and weak image locality, we have designed the LSBlock and RGBlock. These modules enable more precise capture of local image dependencies and significantly enhance the robustness of the model. Extensive experimental results on the publicly available benchmark datasets COCO and VOC demonstrate that Mamba-YOLO surpasses the existing YOLO series models in both performance and competitiveness, showcasing its substantial potential and competitive edge.The PyTorch code is available at:\url{https://github.com/HZAI-ZJNU/Mamba-YOLO}
- Abstract(参考訳): ディープラーニング技術の急速な進歩により、YOLOシリーズはリアルタイム物体検出のための新しいベンチマークを作成した。
研究者は、YOLOの基礎の上に、再パラメータ化、効率的な層凝集ネットワーク、アンカーフリー技術といった革新的な応用を継続的に研究してきた。
検出性能をさらに向上するため、トランスフォーマーベースの構造を導入し、モデルの受容領域を大幅に拡張し、顕著な性能向上を実現した。
しかし、自己注意機構の二次的な複雑さがモデルの計算負担を増大させるため、このような改善はコストがかかる。
幸いなことに、革新的な技術としてのステートスペースモデル(SSM)の出現は、2次複雑さに起因する問題を効果的に緩和してきた。
これらの進歩を踏まえて,SSMに基づく新しい物体検出モデルであるマンバヨロを紹介する。
Mamba-YOLOはSSMファウンデーションを最適化するだけでなく、特にオブジェクト検出タスクに適応する。
シーケンスモデリングにおけるSSMの潜在的な限界、例えば受容場が不十分で画像の局所性が弱いことを考慮し、LSBlockとRGBlockを設計した。
これらのモジュールは、より正確な画像依存のキャプチャを可能にし、モデルの堅牢性を大幅に向上させる。
公開されているベンチマークデータセットであるCOCOとVOCの大規模な実験結果によると、Mamba-YOLOは、パフォーマンスと競争性の両方において、既存のYOLOシリーズモデルを上回っている。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection [18.65107742085838]
提案するMambaFusion Path Aggregation Network (MambaFusion-PAN) をネックアーキテクチャとして用いた新しいYOLOベースのOVDモデルであるMamba-YOLO-Worldを提案する。
具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。
実験の結果,COCOとLVISのベンチマークでは,ゼロショットと微調整の両方で,従来のYOLO-Worldよりも優れていた。
論文 参考訳(メタデータ) (2024-09-13T03:23:52Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation [74.65906322148997]
本稿では,画像特徴量間の複雑な高次相関を捉えるためにハイパーグラフ計算を統合する新しいオブジェクト検出手法を提案する。
Hyper-YOLOは、高度なYOLOv8-NとYOLOv9Tを12%のtextval$と9%のAPMoonLabの改善で大幅に上回っている。
論文 参考訳(メタデータ) (2024-08-09T01:21:15Z) - Spatial Transformer Network YOLO Model for Agricultural Object Detection [0.3124884279860061]
本稿では,空間変換器ネットワーク(STN)をYOLOに統合し,性能を向上させる手法を提案する。
提案するSTN-YOLOは,画像の重要な領域に着目し,モデルの有効性を高めることを目的としている。
農業オブジェクト検出のためのベンチマークデータセットと、最先端の植物表現型温室施設からの新たなデータセットにSTN-YOLOを適用した。
論文 参考訳(メタデータ) (2024-07-31T14:53:41Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space [9.68374853606234]
本稿では,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提案する。
FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強度を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。
私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。
論文 参考訳(メタデータ) (2024-05-03T03:20:37Z) - VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting [11.058879849373572]
時間的予測のためのRNNを持つVTやCNNは、時間的・空間的ダイナミクスを予測するのに相容れない結果をもたらす。
最近のMambaベースのアーキテクチャは、非常に長いシーケンスモデリング能力に熱中している。
本稿では,ビジョンマンバブロックの強度をLSTMと統合した再帰ユニットであるVMRNNセルを提案する。
論文 参考訳(メタデータ) (2024-03-25T08:26:42Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - DAMO-YOLO : A Report on Real-Time Object Detection Design [19.06518351354291]
本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。
我々は最大エントロピーの原理で導かれるMAE-NASを用いて検出バックボーンを探索する。
「首と首のデザインでは、大首と小首の規則に従っている。」
論文 参考訳(メタデータ) (2022-11-23T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。