論文の概要: Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
- arxiv url: http://arxiv.org/abs/2011.12450v2
- Date: Mon, 26 Apr 2021 14:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:45:54.543255
- Title: Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
- Title(参考訳): Sparse R-CNN:学習可能な提案によるエンドツーエンドオブジェクト検出
- Authors: Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan,
Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo
- Abstract要約: Sparse R-CNNは、画像中の物体検出のための純粋にスパースな方法である。
最終的な予測は、最大でない処理後抑制なしで直接出力される。
われわれの研究が、物体検知器に先立って密集した慣例を再考することを願っている。
- 参考スコア(独自算出の注目度): 77.9701193170127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Sparse R-CNN, a purely sparse method for object detection in
images. Existing works on object detection heavily rely on dense object
candidates, such as $k$ anchor boxes pre-defined on all grids of image feature
map of size $H\times W$. In our method, however, a fixed sparse set of learned
object proposals, total length of $N$, are provided to object recognition head
to perform classification and location. By eliminating $HWk$ (up to hundreds of
thousands) hand-designed object candidates to $N$ (e.g. 100) learnable
proposals, Sparse R-CNN completely avoids all efforts related to object
candidates design and many-to-one label assignment. More importantly, final
predictions are directly output without non-maximum suppression post-procedure.
Sparse R-CNN demonstrates accuracy, run-time and training convergence
performance on par with the well-established detector baselines on the
challenging COCO dataset, e.g., achieving 45.0 AP in standard $3\times$
training schedule and running at 22 fps using ResNet-50 FPN model. We hope our
work could inspire re-thinking the convention of dense prior in object
detectors. The code is available at: https://github.com/PeizeSun/SparseR-CNN.
- Abstract(参考訳): Sparse R-CNNは画像中の物体検出のための純粋にスパースな方法である。
既存のオブジェクト検出の作業は、密度の高いオブジェクト候補に大きく依存している。例えば、サイズ$h\times w$のイメージフィーチャーマップのすべてのグリッドで事前に定義された$k$ anchor boxなどだ。
しかし,本手法では,対象認識ヘッドに対して,学習対象の提案である総長さn$の固定スパースセットを提供し,分類と位置推定を行う。
HWk$(数十万まで)のハンドデザインのオブジェクト候補を$N$(例えば100)の学習可能な提案に排除することで、Sparse R-CNNはオブジェクト候補の設計と多対一のラベル割り当てに関連するすべての作業を完全に回避する。
さらに重要なことに、最終予測は、処理後の最大抑制なしに直接出力される。
Sparse R-CNNは精度、実行時間、トレーニング収束性能を、挑戦的なCOCOデータセット上で確立されたベースラインと同等に示す。例えば、標準3ドル/タイムで45.0 APを獲得し、ResNet-50 FPNモデルを使用して22fpsで実行することができる。
われわれの研究が、物体検知器の高密度以前の慣習を再考することを願っている。
コードはhttps://github.com/PeizeSun/SparseR-CNNで入手できる。
関連論文リスト
- Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。
本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文 参考訳(メタデータ) (2024-07-17T03:24:09Z) - PG-RCNN: Semantic Surface Point Generation for 3D Object Detection [19.341260543105548]
ポイントジェネレーションR-CNN(PG-RCNN)は、3次元物体検出のための新しいエンドツーエンド検出器である。
共同でトレーニングされたRoIポイント生成モジュールを使用して、RoIのコンテキスト情報を処理する。
PG-RCNNは生成された全ての点について、推定された前景確率を示す意味的特徴を割り当てる。
論文 参考訳(メタデータ) (2023-07-24T09:22:09Z) - Oriented R-CNN for Object Detection [61.78746189807462]
本研究では、オブジェクト指向R-CNNと呼ばれる、効果的でシンプルなオブジェクト指向オブジェクト検出フレームワークを提案する。
第1段階では,高品質な指向型提案をほぼ無償で直接生成する指向型領域提案ネットワーク(指向RPN)を提案する。
第2段階は、R-CNNヘッダーで、興味のある領域(オブジェクト指向のRoI)を精製し、認識する。
論文 参考訳(メタデータ) (2021-08-12T12:47:43Z) - Probabilistic Robustness Analysis for DNNs based on PAC Learning [14.558877524991752]
我々は、DNNを入力から出力までの関数 $boldsymbolf$ とみなし、与えられた入力に対する局所ロバスト性を考慮する。
目標ラベル $ell$ と攻撃ラベル $i$ に関してスコア差関数 $f_i-f_ell$ を学習する。
我々のフレームワークは、6.5ドルのニューロンを持つResNet152のような非常に大きなニューラルネットワークを処理でき、しばしば敵の例を生成する。
論文 参考訳(メタデータ) (2021-01-25T14:10:52Z) - OneNet: Towards End-to-End One-Stage Object Detection [39.445348555252785]
既存の1段階のオブジェクト検出器は、ラベルをロケーションコストのみに割り当てる。
分類コストがなければ、唯一の位置コストは推論における高い信頼度スコアの冗長なボックスにつながる。
エンドツーエンドのワンステージオブジェクトディテクタを設計するために、最小コスト割り当てを提案します。
onenetは512ピクセルの35.0 ap/80 fpsと37.7 ap/50 fpsを達成する。
論文 参考訳(メタデータ) (2020-12-10T16:15:19Z) - Corner Proposal Network for Anchor-free, Two-stage Object Detection [174.59360147041673]
オブジェクト検出の目標は、画像内のオブジェクトのクラスと位置を決定することである。
本稿では,多数のオブジェクト提案を抽出する新しいアンカーフリー2段階フレームワークを提案する。
この2つの段階が,リコールと精度の向上に有効な解であることを示す。
論文 参考訳(メタデータ) (2020-07-27T19:04:57Z) - FCOS: A simple and strong anchor-free object detector [111.87691210818194]
物体検出を画素ごとの予測方式で解くために, 完全畳み込み型一段物検出器 (FCOS) を提案する。
RetinaNet、SSD、YOLOv3、Faster R-CNNといった最先端のオブジェクト検出器のほとんどは、事前に定義されたアンカーボックスに依存している。
対照的に、提案した検出器FCOSはアンカーボックスフリーであり、提案はフリーである。
論文 参考訳(メタデータ) (2020-06-14T01:03:39Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。