論文の概要: FOVEA: Foveated Image Magnification for Autonomous Navigation
- arxiv url: http://arxiv.org/abs/2108.12102v1
- Date: Fri, 27 Aug 2021 03:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:15:16.015148
- Title: FOVEA: Foveated Image Magnification for Autonomous Navigation
- Title(参考訳): FOVEA: 自律ナビゲーションのための画像拡大
- Authors: Chittesh Thavamani, Mengtian Li, Nicolas Cebron, Deva Ramanan
- Abstract要約: 入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
- 参考スコア(独自算出の注目度): 53.69803081925454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient processing of high-resolution video streams is safety-critical for
many robotics applications such as autonomous driving. Image downsampling is a
commonly adopted technique to ensure the latency constraint is met. However,
this naive approach greatly restricts an object detector's capability to
identify small objects. In this paper, we propose an attentional approach that
elastically magnifies certain regions while maintaining a small input canvas.
The magnified regions are those that are believed to have a high probability of
containing an object, whose signal can come from a dataset-wide prior or
frame-level prior computed from recent object predictions. The magnification is
implemented by a KDE-based mapping to transform the bounding boxes into warping
parameters, which are then fed into an image sampler with anti-cropping
regularization. The detector is then fed with the warped image and we apply a
differentiable backward mapping to get bounding box outputs in the original
space. Our regional magnification allows algorithms to make better use of
high-resolution input without incurring the cost of high-resolution processing.
On the autonomous driving datasets Argoverse-HD and BDD100K, we show our
proposed method boosts the detection AP over standard Faster R-CNN, with and
without finetuning. Additionally, building on top of the previous
state-of-the-art in streaming detection, our method sets a new record for
streaming AP on Argoverse-HD (from 17.8 to 23.0 on a GTX 1080 Ti GPU),
suggesting that it has achieved a superior accuracy-latency tradeoff.
- Abstract(参考訳): 高分解能ビデオストリームの効率的な処理は、自動運転のような多くのロボティクスアプリケーションにとって安全性に欠かせない。
イメージダウンサンプリングは、遅延制約を満たすための一般的なテクニックである。
しかし、この単純なアプローチは、小さな物体を識別する物体検出器の能力を大幅に制限する。
本稿では,小さな入力キャンバスを維持しながら,ある領域を弾性的に拡大する注意的アプローチを提案する。
拡大された領域は、オブジェクトを含む確率が高いと考えられており、その信号はデータセット全体から、あるいは最近のオブジェクト予測から計算されたフレームレベルから来ることができる。
拡大化はKDEベースのマッピングによって実装され、境界ボックスをワープパラメータに変換し、反クロップ正則化でイメージサンプルに入力する。
検出器は歪んだ画像で供給され、元の空間で境界ボックス出力を得るために微分可能な後方マッピングを適用する。
我々の地域拡大により、アルゴリズムは高解像度処理のコストを伴わずに高解像度入力をうまく利用することができる。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
さらに,従来のストリーミング検出技術の上に構築した手法では,Argoverse-HD(GTX 1080 Ti GPUで17.8から23.0まで)でAPをストリーミングする新たな記録が設定されており,精度とレイテンシのトレードオフが優れていることが示唆された。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - ESOD: Efficient Small Object Detection on High-Resolution Images [36.80623357577051]
小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化される。
画像の非対象背景領域において、大量の特徴抽出計算を無駄にする。
本稿では,検出器のバックボーンを再利用して,特徴レベルのオブジェクト探索とパッチスライシングを行う方法を提案する。
論文 参考訳(メタデータ) (2024-07-23T12:21:23Z) - Neural Fields with Thermal Activations for Arbitrary-Scale Super-Resolution [56.089473862929886]
本稿では,適応型ガウスPSFを用いて点を問合せできる新しい設計手法を提案する。
理論的に保証されたアンチエイリアスにより、任意のスケールの単一画像の超解像のための新しい手法が確立される。
論文 参考訳(メタデータ) (2023-11-29T14:01:28Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - DARDet: A Dense Anchor-free Rotated Object Detector in Aerial Images [11.45718985586972]
空中画像における回転物体検出のための高密度アンカーフリー回転物体検出器(DARDet)を提案する。
我々のDARDetは、特徴マップの各前景ピクセルで回転したボックスの5つのパラメータを直接予測する。
提案手法は, 一般的に使用されている3つの空中オブジェクトデータセットに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-03T15:28:14Z) - DAFNe: A One-Stage Anchor-Free Deep Model for Oriented Object Detection [16.21161769128316]
DAFNe: オブジェクト指向物体検出のためのワンステージアンカーフリーディープネットワークを提案する。
アンカーフリーモデルとして、DAFNeはバウンディングボックスアンカーの使用を控えることで予測複雑性を低減する。
低品質な予測に対する任意指向の有界箱に対する中心性関数の指向性を考慮した一般化を提案する。
論文 参考訳(メタデータ) (2021-09-13T17:37:20Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - LR-CNN: Local-aware Region CNN for Vehicle Detection in Aerial Imagery [43.91170581467171]
最先端の物体検出手法は、大規模な空中画像において、任意の向きの密集した小さなターゲットを検出するのに困難である。
本稿では,航空画像における車両検出のための新しい2段階アプローチとして,地域認識型地域畳み込みニューラルネットワーク(LR-CNN)を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。