論文の概要: Scale Normalized Image Pyramids with AutoFocus for Object Detection
- arxiv url: http://arxiv.org/abs/2102.05646v1
- Date: Wed, 10 Feb 2021 18:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:50:01.943977
- Title: Scale Normalized Image Pyramids with AutoFocus for Object Detection
- Title(参考訳): AutoFocusを用いた物体検出のためのスケール正規化画像ピラミッド
- Authors: Bharat Singh, Mahyar Najibi, Abhishek Sharma and Larry S. Davis
- Abstract要約: スケール正規化画像ピラミッド(SNIP)が生成され、人間の視覚と同様に、異なるスケールで固定されたサイズ範囲内のオブジェクトにのみ参加する。
本研究では,オブジェクトを含む可能性のある固定サイズのサブリージョンのみで動作する,効率的な空間サブサンプリング手法を提案する。
結果のアルゴリズムはAutoFocusと呼ばれ、SNIPを使用する場合の推論では2.5~5倍のスピードアップとなる。
- 参考スコア(独自算出の注目度): 75.71320993452372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an efficient foveal framework to perform object detection. A scale
normalized image pyramid (SNIP) is generated that, like human vision, only
attends to objects within a fixed size range at different scales. Such a
restriction of objects' size during training affords better learning of
object-sensitive filters, and therefore, results in better accuracy. However,
the use of an image pyramid increases the computational cost. Hence, we propose
an efficient spatial sub-sampling scheme which only operates on fixed-size
sub-regions likely to contain objects (as object locations are known during
training). The resulting approach, referred to as Scale Normalized Image
Pyramid with Efficient Resampling or SNIPER, yields up to 3 times speed-up
during training. Unfortunately, as object locations are unknown during
inference, the entire image pyramid still needs processing. To this end, we
adopt a coarse-to-fine approach, and predict the locations and extent of
object-like regions which will be processed in successive scales of the image
pyramid. Intuitively, it's akin to our active human-vision that first skims
over the field-of-view to spot interesting regions for further processing and
only recognizes objects at the right resolution. The resulting algorithm is
referred to as AutoFocus and results in a 2.5-5 times speed-up during inference
when used with SNIP.
- Abstract(参考訳): オブジェクト検出を行うための効率的な葉っぱフレームワークを提案する。
スケール正規化画像ピラミッド(SNIP)は、人間のビジョンと同様に、異なるスケールで固定サイズの範囲内のオブジェクトにのみ出席する生成されます。
このようなトレーニング中のオブジェクトのサイズ制限により、オブジェクトに敏感なフィルタの学習が向上し、結果として精度が向上する。
しかし、画像ピラミッドの使用は計算コストを増加させます。
そこで本稿では,オブジェクトを含む可能性のある固定サイズの部分領域のみで動作する効率的な空間サブサンプリング方式を提案する。
その結果、効率的な再サンプリングまたはSNIPERを備えたスケール正規化画像ピラミッドと呼ばれるアプローチは、トレーニング中に最大3倍のスピードアップをもたらします。
残念ながら、推論中にオブジェクトの位置が不明であるため、画像ピラミッド全体はまだ処理が必要です。
この目的のために、我々は粗大なアプローチを採用し、画像ピラミッドの連続的なスケールで処理されるオブジェクトのような領域の位置と範囲を予測する。
直感的には、私たちのアクティブなヒューマンビジョンに似ていて、まず視野を越えて、さらなる処理のために興味深い領域を見つけ出し、正しい解像度でのみオブジェクトを認識する。
結果のアルゴリズムはAutoFocusと呼ばれ、SNIPを使用する場合の推論では2.5~5倍のスピードアップとなる。
関連論文リスト
- Temporal Lidar Depth Completion [0.08192907805418582]
PENetは, 再発の恩恵を受けるために, 最新の手法であるPENetをどう修正するかを示す。
提案アルゴリズムは,KITTI深度補完データセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-17T08:25:31Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Learning to segment from object sizes [0.0]
本稿では,数画素の注釈付き画像と既知のオブジェクトサイズを持つ多数の画像のデータセットから,ディープセグメンテーションネットワークをトレーニングするアルゴリズムを提案する。
このアルゴリズムは、勾配をサンプリングし、標準のバックプロパゲーションアルゴリズムを使用することで、オブジェクトサイズに対して定義された離散的な(微分不可能な)損失関数を最小化する。
論文 参考訳(メタデータ) (2022-07-01T09:34:44Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Category-Level Metric Scale Object Shape and Pose Estimation [73.92460712829188]
本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-01T12:16:46Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。