論文の概要: SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients
- arxiv url: http://arxiv.org/abs/2405.01699v1
- Date: Thu, 2 May 2024 19:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:34:45.297036
- Title: SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients
- Title(参考訳): SOAR:状態空間モデルとプログラム可能な勾配を用いた航空画像の小型物体検出の進歩
- Authors: Tushar Verma, Jyotsna Singh, Yash Bhartari, Rishi Jarwal, Suraj Singh, Shubhkarman Singh,
- Abstract要約: 空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。
本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
- 参考スコア(独自算出の注目度): 0.8873228457453465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small object detection in aerial imagery presents significant challenges in computer vision due to the minimal data inherent in small-sized objects and their propensity to be obscured by larger objects and background noise. Traditional methods using transformer-based models often face limitations stemming from the lack of specialized databases, which adversely affect their performance with objects of varying orientations and scales. This underscores the need for more adaptable, lightweight models. In response, this paper introduces two innovative approaches that significantly enhance detection and segmentation capabilities for small aerial objects. Firstly, we explore the use of the SAHI framework on the newly introduced lightweight YOLO v9 architecture, which utilizes Programmable Gradient Information (PGI) to reduce the substantial information loss typically encountered in sequential feature extraction processes. The paper employs the Vision Mamba model, which incorporates position embeddings to facilitate precise location-aware visual understanding, combined with a novel bidirectional State Space Model (SSM) for effective visual context modeling. This State Space Model adeptly harnesses the linear complexity of CNNs and the global receptive field of Transformers, making it particularly effective in remote sensing image classification. Our experimental results demonstrate substantial improvements in detection accuracy and processing efficiency, validating the applicability of these approaches for real-time small object detection across diverse aerial scenarios. This paper also discusses how these methodologies could serve as foundational models for future advancements in aerial object recognition technologies. The source code will be made accessible here.
- Abstract(参考訳): 空中画像における小さな物体検出は、小さな物体に固有の最小限のデータと、大きな物体や背景ノイズによって隠蔽される確率によって、コンピュータビジョンにおいて重大な課題を呈する。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如から生じる制約に直面し、様々な向きやスケールのオブジェクトでパフォーマンスに悪影響を及ぼす。
これにより、より適応的で軽量なモデルの必要性が浮き彫りになる。
そこで本研究では,小型航空機の検知とセグメンテーション機能を大幅に向上する2つの革新的な手法を提案する。
まず,Programmable Gradient Information (PGI) を利用した,新たに導入された軽量YOLO v9アーキテクチャ上でのSAHIフレームワークの利用について検討する。
本稿では,位置認識型視覚理解を容易にするために位置埋め込みを取り入れた視覚マンバモデルと,効果的な視覚コンテキストモデリングのための新しい双方向状態空間モデル(SSM)を組み合わせる。
この状態空間モデルは、CNNの線形複雑性とトランスフォーマーの世界的な受容領域をうまく利用し、リモートセンシング画像分類に特に有効である。
実験の結果, 検出精度と処理効率が大幅に向上し, 様々な航空シナリオにまたがる実時間小物体検出への適用性が検証された。
本稿では,これらの手法が空中物体認識技術の今後の進歩の基盤モデルとして機能する可能性についても論じる。
ソースコードはここでアクセス可能である。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Spatial Transformer Network YOLO Model for Agricultural Object Detection [0.3124884279860061]
本稿では,空間変換器ネットワーク(STN)をYOLOに統合し,性能を向上させる手法を提案する。
提案するSTN-YOLOは,画像の重要な領域に着目し,モデルの有効性を高めることを目的としている。
農業オブジェクト検出のためのベンチマークデータセットと、最先端の植物表現型温室施設からの新たなデータセットにSTN-YOLOを適用した。
論文 参考訳(メタデータ) (2024-07-31T14:53:41Z) - From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection
with Super Resolution [4.107182710549721]
超解像度と適応型軽量YOLOv5アーキテクチャを組み合わせた革新的なアプローチを提案する。
実験により,小型で密集した物体の検出において,モデルの性能が優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Chosen methods of improving object recognition of small objects with
weak recognizable features [0.0]
適切なGANモデルを使用することで、その量と多様性を増大させる低精度データの増大が可能になる。
本研究では,VOC Pascalデータセット上での小さなオブジェクト検出を改善するため,拡張型GAN法を提案する。
論文 参考訳(メタデータ) (2022-08-29T13:39:02Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Knowledge Distillation for Oriented Object Detection on Aerial Images [1.827510863075184]
本稿では,KD-RNetの知識蒸留による空中画像の回転物体検出のためのモデル圧縮手法を提案する。
大規模空中物体検出データセット(DOTA)による実験結果から,提案したKD-RNetモデルにより,パラメータ数を削減した平均値精度(mAP)が向上し,同時にKD-RNetは,基底アノテーションと高い重なり合う高品質検出を提供することで,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T14:24:16Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。