論文の概要: SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer
- arxiv url: http://arxiv.org/abs/2502.07216v1
- Date: Tue, 11 Feb 2025 03:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:50.963421
- Title: SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer
- Title(参考訳): SparseFormer:スパースビジョン変換器によるHRWショット中の物体検出
- Authors: Wenxi Li, Yuchen Guo, Jilai Zheng, Haozhe Lin, Chao Ma, Lu Fang, Xiaokang Yang,
- Abstract要約: 本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 62.11796778482088
- License:
- Abstract: Recent years have seen an increase in the use of gigapixel-level image and video capture systems and benchmarks with high-resolution wide (HRW) shots. However, unlike close-up shots in the MS COCO dataset, the higher resolution and wider field of view raise unique challenges, such as extreme sparsity and huge scale changes, causing existing close-up detectors inaccuracy and inefficiency. In this paper, we present a novel model-agnostic sparse vision transformer, dubbed SparseFormer, to bridge the gap of object detection between close-up and HRW shots. The proposed SparseFormer selectively uses attentive tokens to scrutinize the sparsely distributed windows that may contain objects. In this way, it can jointly explore global and local attention by fusing coarse- and fine-grained features to handle huge scale changes. SparseFormer also benefits from a novel Cross-slice non-maximum suppression (C-NMS) algorithm to precisely localize objects from noisy windows and a simple yet effective multi-scale strategy to improve accuracy. Extensive experiments on two HRW benchmarks, PANDA and DOTA-v1.0, demonstrate that the proposed SparseFormer significantly improves detection accuracy (up to 5.8%) and speed (up to 3x) over the state-of-the-art approaches.
- Abstract(参考訳): 近年、ギガピクセルレベルの画像とビデオキャプチャシステム、高解像度ワイド(HRW)撮影によるベンチマークの使用が増加している。
しかし、MS COCOデータセットのクローズアップショットとは異なり、高解像度と広い視野は、極端なスパシティや大規模な変更など、ユニークな課題を引き起こし、既存のクローズアップ検出器の不正確さと非効率を引き起こす。
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
このようにして、大規模な変更に対応するために粗い機能ときめ細かい機能を融合することで、グローバルとローカルの注意を共同で探索することができる。
SparseFormerはまた、ノイズの多いウィンドウからオブジェクトを正確にローカライズするクロススライス非最大抑圧(C-NMS)アルゴリズムと、精度を向上させるためのシンプルで効果的なマルチスケール戦略の恩恵を受けている。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の広範な実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
関連論文リスト
- Highly Efficient and Unsupervised Framework for Moving Object Detection in Satellite Videos [0.2023650687546586]
本稿では,SVMODのための高度に効率的な非教師付きフレームワークを提案する。
提案手法は,1024倍画像上で秒間9フレームを処理できるだけでなく,フォアグラウンド・アート・パフォーマンスも実現可能であることを示す。
論文 参考訳(メタデータ) (2024-11-24T16:06:42Z) - Learning to Make Keypoints Sub-Pixel Accurate [80.55676599677824]
本研究は,2次元局所特徴の検出におけるサブピクセル精度の課題に対処する。
本稿では,検出された特徴に対するオフセットベクトルを学習することにより,サブピクセル精度で検出器を拡張できる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:39:56Z) - Detect Any Deepfakes: Segment Anything Meets Face Forgery Detection and
Localization [30.317619885984005]
本稿では,視覚的セグメンテーション基盤モデル,すなわちセグメンテーションモデル(SAM)をフォージェリ検出とローカライゼーションの対面に導入する。
SAMに基づいて,Multiscale Adapterを用いたDADFフレームワークを提案する。
提案するフレームワークは、エンドツーエンドのフォージェリーローカライゼーションと検出最適化をシームレスに統合する。
論文 参考訳(メタデータ) (2023-06-29T16:25:04Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small
Object Detection [17.775203579232144]
特徴ピラミド系物体検出器の推論速度を高速化する新規なクエリ機構を提案する。
パイプラインはまず、低解像度特徴量上の小さな物体の粗い位置を予測し、高解像度特徴量を用いて正確な検出結果を算出する。
一般的なCOCOデータセットでは,検出mAPを1.0倍,mAPを2.0倍に改善し,高分解能推論速度を平均3.0倍に向上する。
論文 参考訳(メタデータ) (2021-03-16T15:30:20Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。