論文の概要: Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2409.08513v2
- Date: Mon, 16 Sep 2024 06:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 12:21:17.104870
- Title: Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
- Title(参考訳): Mamba-YOLO-World: オープン語彙検出のためのYoLO-WorldとMamba
- Authors: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang,
- Abstract要約: 提案するMambaFusion Path Aggregation Network (MambaFusion-PAN) をネックアーキテクチャとして用いた新しいYOLOベースのOVDモデルであるMamba-YOLO-Worldを提案する。
具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。
実験の結果,COCOとLVISのベンチマークでは,ゼロショットと微調整の両方で,従来のYOLO-Worldよりも優れていた。
- 参考スコア(独自算出の注目度): 18.65107742085838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency. However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields. To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process. Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.
- Abstract(参考訳): Open-vocabulary Detection (OVD)は、事前に定義されたカテゴリのセットを越えてオブジェクトを検出することを目的としている。
YOLOシリーズをOVDに取り入れた先駆的なモデルとして、YOLO-Worldはスピードと効率を優先するシナリオに適している。
しかし、その性能は首の特徴融合機構によって妨げられ、これは二次的な複雑さと限定的な誘導受容野を引き起こす。
これらの制約に対処するために,提案するMambaFusion Path Aggregation Network(MambaFusion-PAN)をネックアーキテクチャとして用いた,YOLOベースの新しいOVDモデルであるMamba-YOLO-Worldを紹介する。
具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。
マルチモーダルな入力シーケンスとmamba隠された状態を利用して選択的スキャンプロセスを導出する。
実験により,本モデルはCOCOおよびLVISベンチマークにおいて,比較パラメータとFLOPを維持しつつ,ゼロショットおよび微調整設定の両方において,元のYOLO-Worldよりも優れた性能を示した。
さらに、パラメータやFLOPが少なく、既存の最先端のOVDメソッドを超越している。
関連論文リスト
- YOLO-UniOW: Efficient Universal Open-World Object Detection [63.71512991320627]
オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。
YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。
実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
論文 参考訳(メタデータ) (2024-12-30T01:34:14Z) - HyperDefect-YOLO: Enhance YOLO with HyperGraph Computation for Industrial Defect Detection [12.865603495310328]
HD-YOLOはDAM(Defect Aware Module)とMGNet(Mixed Graph Network)で構成されている。
HGANetはハイパーグラフとアテンション機構を組み合わせて、マルチスケール機能を集約する。
CSF(Cross-Scale Fusion)は、単純な結合や畳み込みではなく、機能を適応的に融合し、処理するために提案されている。
論文 参考訳(メタデータ) (2024-12-05T08:38:01Z) - Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - Mamba YOLO: A Simple Baseline for Object Detection with State Space Model [10.44725284994877]
YOLOシリーズは、リアルタイムオブジェクト検出のための新しいベンチマークを設定した。
トランスフォーマーベースの構造が、最も強力なソリューションとして登場した。
しかし、自己注意機構の二次的な複雑さは計算負担を増加させる。
簡単なが効果的なベースラインアプローチであるYolo Mambaを紹介する。
論文 参考訳(メタデータ) (2024-06-09T15:56:19Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space [9.68374853606234]
本稿では,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提案する。
FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強度を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。
私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。
論文 参考訳(メタデータ) (2024-05-03T03:20:37Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - DAMO-YOLO : A Report on Real-Time Object Detection Design [19.06518351354291]
本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。
我々は最大エントロピーの原理で導かれるMAE-NASを用いて検出バックボーンを探索する。
「首と首のデザインでは、大首と小首の規則に従っている。」
論文 参考訳(メタデータ) (2022-11-23T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。