Fugu-MT 論文翻訳(概要): Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

論文の概要: Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

arxiv url: http://arxiv.org/abs/2409.08513v2
Date: Mon, 16 Sep 2024 06:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 12:21:17.104870
Title: Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
Title（参考訳）: Mamba-YOLO-World: オープン語彙検出のためのYoLO-WorldとMamba
Authors: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang,
Abstract要約: 提案するMambaFusion Path Aggregation Network (MambaFusion-PAN) をネックアーキテクチャとして用いた新しいYOLOベースのOVDモデルであるMamba-YOLO-Worldを提案する。具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。実験の結果,COCOとLVISのベンチマークでは,ゼロショットと微調整の両方で,従来のYOLO-Worldよりも優れていた。
参考スコア（独自算出の注目度）: 18.65107742085838
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency. However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields. To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process. Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.
Abstract（参考訳）: Open-vocabulary Detection (OVD)は、事前に定義されたカテゴリのセットを越えてオブジェクトを検出することを目的としている。 YOLOシリーズをOVDに取り入れた先駆的なモデルとして、YOLO-Worldはスピードと効率を優先するシナリオに適している。しかし、その性能は首の特徴融合機構によって妨げられ、これは二次的な複雑さと限定的な誘導受容野を引き起こす。これらの制約に対処するために,提案するMambaFusion Path Aggregation Network(MambaFusion-PAN)をネックアーキテクチャとして用いた,YOLOベースの新しいOVDモデルであるMamba-YOLO-Worldを紹介する。具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。マルチモーダルな入力シーケンスとmamba隠された状態を利用して選択的スキャンプロセスを導出する。実験により,本モデルはCOCOおよびLVISベンチマークにおいて,比較パラメータとFLOPを維持しつつ,ゼロショットおよび微調整設定の両方において,元のYOLO-Worldよりも優れた性能を示した。さらに、パラメータやFLOPが少なく、既存の最先端のOVDメソッドを超越している。

関連論文リスト

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception [44.76134548023668]
高精度で軽量な物体検出器YOLOv13を提案する。ハイパーグラフに基づく適応相関強化(HyperACE)機構を提案する。また,FullPAD(Full-Pipeline Aggregation-and-Distribution)パラダイムを提案する。
論文参考訳（メタデータ） (2025-06-21T15:15:03Z)
SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection [12.964308630328688]
赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。 ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
論文参考訳（メタデータ） (2025-05-29T07:55:23Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
YOLO-UniOW: Efficient Universal Open-World Object Detection [63.71512991320627]
オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。 YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
論文参考訳（メタデータ） (2024-12-30T01:34:14Z)
HyperDefect-YOLO: Enhance YOLO with HyperGraph Computation for Industrial Defect Detection [12.865603495310328]
HD-YOLOはDAM(Defect Aware Module)とMGNet(Mixed Graph Network)で構成されている。 HGANetはハイパーグラフとアテンション機構を組み合わせて、マルチスケール機能を集約する。 CSF(Cross-Scale Fusion)は、単純な結合や畳み込みではなく、機能を適応的に融合し、処理するために提案されている。
論文参考訳（メタデータ） (2024-12-05T08:38:01Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文参考訳（メタデータ） (2024-11-04T16:12:37Z)
Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection [3.7793767915135295]
本稿では,MAF-YOLOという新しいモデルを提案する。 Multi-Branch Auxiliary FPN (MAFPN) という名前の汎用ネックを持つ新しいオブジェクト検出フレームワークである。例えばMAF-YOLOのナノバージョンを使用すれば、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。
論文参考訳（メタデータ） (2024-07-05T09:35:30Z)
Mamba YOLO: SSMs-Based YOLO For Object Detection [9.879086222226617]
Mamba-YOLOはステートスペースモデルに基づく新しい物体検出モデルである。本報告では,マンバヨロが既存のYOLOシリーズモデルを上回る性能と競争性を示す。
論文参考訳（メタデータ） (2024-06-09T15:56:19Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space [9.68374853606234]
本稿では,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提案する。 FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強度を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。
論文参考訳（メタデータ） (2024-05-03T03:20:37Z)
MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。本研究は,マルチクラス非教師付き異常検出へのMambaADの適用の先駆者であり,MambaADを提示する。提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-04-09T18:28:55Z)
Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文参考訳（メタデータ） (2024-03-27T09:14:36Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
DAMO-YOLO : A Report on Real-Time Object Detection Design [19.06518351354291]
本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。我々は最大エントロピーの原理で導かれるMAE-NASを用いて検出バックボーンを探索する。「首と首のデザインでは、大首と小首の規則に従っている。」
論文参考訳（メタデータ） (2022-11-23T17:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。