論文の概要: SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection
- arxiv url: http://arxiv.org/abs/2204.02397v1
- Date: Tue, 5 Apr 2022 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 14:09:56.964666
- Title: SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection
- Title(参考訳): SALISA:効率的なビデオオブジェクト検出のためのサリエンシに基づく入力サンプリング
- Authors: Babak Ehteshami Bejnordi, Amirhossein Habibian, Fatih Porikli, Amir
Ghodrati
- Abstract要約: ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
- 参考スコア(独自算出の注目度): 58.22508131162269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution images are widely adopted for high-performance object
detection in videos. However, processing high-resolution inputs comes with high
computation costs, and naive down-sampling of the input to reduce the
computation costs quickly degrades the detection performance. In this paper, we
propose SALISA, a novel non-uniform SALiency-based Input SAmpling technique for
video object detection that allows for heavy down-sampling of unimportant
background regions while preserving the fine-grained details of a
high-resolution image. The resulting image is spatially smaller, leading to
reduced computational costs while enabling a performance comparable to a
high-resolution input. To achieve this, we propose a differentiable resampling
module based on a thin plate spline spatial transformer network (TPS-STN). This
module is regularized by a novel loss to provide an explicit supervision signal
to learn to "magnify" salient regions. We report state-of-the-art results in
the low compute regime on the ImageNet-VID and UA-DETRAC video object detection
datasets. We demonstrate that on both datasets, the mAP of an EfficientDet-D1
(EfficientDet-D2) gets on par with EfficientDet-D2 (EfficientDet-D3) at a much
lower computational cost. We also show that SALISA significantly improves the
detection of small objects. In particular, SALISA with an EfficientDet-D1
detector improves the detection of small objects by $77\%$, and remarkably also
outperforms EfficientDetD3 baseline.
- Abstract(参考訳): 高解像度画像はビデオの高性能物体検出に広く採用されている。
しかし、高分解能入力の処理には高い計算コストが伴うため、計算コストを削減するために入力の単純ダウンサンプリングは検出性能を迅速に低下させる。
本稿では,高分解能画像の細かな細部を保存しつつ,重要でない背景領域の重くダウンサンプリングを可能にする映像物体検出のための,不均一なサリエンシーに基づく入力サンプリング手法であるsalisaを提案する。
結果として得られる画像は空間的に小さくなり、計算コストは低減され、高解像度の入力に匹敵する性能を実現する。
そこで本研究では,薄板スプライン空間変圧器ネットワーク(TPS-STN)に基づく識別可能な再サンプリングモジュールを提案する。
このモジュールは新たな損失によって正規化され、聖域の「拡大」を学ぶための明確な監視信号を提供する。
我々は、ImageNet-VIDおよびUA-DETRACビデオオブジェクト検出データセットにおいて、少ない計算方式における最先端結果について報告する。
両データセットにおいて,EfficientDet-D1 (EfficientDet-D2) の mAP が,EfficientDet-D2 (EfficientDet-D3) と同等であることを示す。
また,SALISAは小物体の検出を著しく改善することを示した。
特に、EfficientDet-D1検出器を備えたSALISAは、小さなオブジェクトの検出を7.7セントで改善し、EfficientDetD3ベースラインを著しく上回る。
関連論文リスト
- ESOD: Efficient Small Object Detection on High-Resolution Images [36.80623357577051]
小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化される。
画像の非対象背景領域において、大量の特徴抽出計算を無駄にする。
本稿では,検出器のバックボーンを再利用して,特徴レベルのオブジェクト探索とパッチスライシングを行う方法を提案する。
論文 参考訳(メタデータ) (2024-07-23T12:21:23Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - TRACER: Extreme Attention Guided Salient Object Tracing Network [3.2434811678562676]
本稿では,注意誘導型トレーシングモジュールを組み込んで,鮮明なエッジで有意な物体を検出するTRACERを提案する。
13の既存手法との比較により、TRACERは5つのベンチマークデータセットで最先端のパフォーマンスを達成することが明らかになった。
論文 参考訳(メタデータ) (2021-12-14T13:20:07Z) - QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small
Object Detection [17.775203579232144]
特徴ピラミド系物体検出器の推論速度を高速化する新規なクエリ機構を提案する。
パイプラインはまず、低解像度特徴量上の小さな物体の粗い位置を予測し、高解像度特徴量を用いて正確な検出結果を算出する。
一般的なCOCOデータセットでは,検出mAPを1.0倍,mAPを2.0倍に改善し,高分解能推論速度を平均3.0倍に向上する。
論文 参考訳(メタデータ) (2021-03-16T15:30:20Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。