論文の概要: HoughNet: Integrating near and long-range evidence for visual detection
- arxiv url: http://arxiv.org/abs/2104.06773v1
- Date: Wed, 14 Apr 2021 11:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:16:32.651488
- Title: HoughNet: Integrating near and long-range evidence for visual detection
- Title(参考訳): HoughNet:視覚検出のための近距離および長距離証拠の統合
- Authors: Nermin Samet, Samet Hicsonmez, Emre Akbas
- Abstract要約: HoughNetは1段階、アンカーフリー、投票ベース、ボトムアップオブジェクト検出方法である。
それは視覚認識のための近距離および長距離の、クラス条件の証拠を統合できます。
- 参考スコア(独自算出の注目度): 13.965477771846409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents HoughNet, a one-stage, anchor-free, voting-based,
bottom-up object detection method. Inspired by the Generalized Hough Transform,
HoughNet determines the presence of an object at a certain location by the sum
of the votes cast on that location. Votes are collected from both near and
long-distance locations based on a log-polar vote field. Thanks to this voting
mechanism, HoughNet is able to integrate both near and long-range,
class-conditional evidence for visual recognition, thereby generalizing and
enhancing current object detection methodology, which typically relies on only
local evidence. On the COCO dataset, HoughNet's best model achieves $46.4$ $AP$
(and $65.1$ $AP_{50}$), performing on par with the state-of-the-art in
bottom-up object detection and outperforming most major one-stage and two-stage
methods. We further validate the effectiveness of our proposal in other visual
detection tasks, namely, video object detection, instance segmentation, 3D
object detection and keypoint detection for human pose estimation, and an
additional ``labels to photo`` image generation task, where the integration of
our voting module consistently improves performance in all cases. Code is
available at \url{https://github.com/nerminsamet/houghnet}.
- Abstract(参考訳): 本稿では,一段階のアンカーフリー,投票ベース,ボトムアップオブジェクト検出手法であるHoughNetを提案する。
一般化されたハフ変換にインスパイアされたHoughNetは、ある場所におけるオブジェクトの存在を、その場所に投じられた投票の合計によって決定する。
投票は、対極投票の場に基づいて、近距離と遠距離の両方の場所から集められる。
この投票機構のおかげで、HoughNetは視覚認識のための近距離および長距離のクラス条件のエビデンスを統合することができ、それによって現在のオブジェクト検出方法論を一般化し、拡張することができる。
COCOデータセットでは、HoughNetの最良のモデルは、46.4$$AP$(および6.5.1$$AP_{50}$)を達成し、ボトムアップオブジェクト検出の最先端と同等に動作し、主要な1段階と2段階のメソッドよりも優れている。
さらに,ビデオオブジェクトの検出,インスタンスのセグメンテーション,人間のポーズ推定のための3次元オブジェクト検出,キーポイント検出などの視覚的検出タスクにおける提案手法の有効性を検証し,画像生成タスクに ``labels to photo` を追加することで,投票モジュールの統合により,すべての場合のパフォーマンスが一貫して向上することを確認した。
コードは \url{https://github.com/nerminsamet/houghnet} で入手できる。
関連論文リスト
- 3D Object Detection from Point Cloud via Voting Step Diffusion [52.9966883689137]
既存の投票ベースのメソッドは、個々のオブジェクトの部分的な面から厳しいノイズとともに投票を受け取り、亜最適検出性能をもたらす。
雑音条件付きスコアネットワークを用いて分布のスコア関数を推定することにより、ランダムな3Dポイントを分布の高密度領域へ移動させる新しい手法を提案する。
大規模屋内3DシーンデータセットSUN RGB-DとScanNet V2の実験により,提案手法の優位性を実証した。
論文 参考訳(メタデータ) (2024-03-21T05:04:52Z) - What You See Is What You Detect: Towards better Object Densification in
3D detection [2.3436632098950456]
広く使われているフル形状のコンプリートアプローチは、特に遠く離れた物や歩行者のような小さな物に対して、エラーのアップバウンドを高くする。
従来の手法が生成した予測ポイントの11.3%しか必要としない可視部分補完法を提案する。
密表現を復元するために,目に見える前景オブジェクトに関連付けられた点集合を拡大するメッシュデフォーメーションに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T01:46:37Z) - VIN: Voxel-based Implicit Network for Joint 3D Object Detection and
Segmentation for Lidars [12.343333815270402]
統合ニューラルネットワーク構造は、ジョイント3Dオブジェクト検出とポイントクラウドセグメンテーションのために提示される。
私たちは、検出ラベルとセグメンテーションラベルの両方からの豊富な監視を活用しています。
論文 参考訳(メタデータ) (2021-07-07T02:16:20Z) - Back-tracing Representative Points for Voting-based 3D Object Detection
in Point Clouds [42.24217764222523]
back-tracing Representative Points Network (BRNet) と呼ばれる新しい3Dオブジェクト検出手法を提案する。
brnetは投票所から代表ポイントを追跡し、これらの生成したポイントの周りの補完的なシードポイントを再検討する。
当社のBRNetはシンプルで効果的で、2つの大規模ポイントクラウドデータセットの最先端のメソッドを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-13T11:39:42Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - HoughNet: Integrating near and long-range evidence for bottom-up object
detection [12.397047191315966]
HoughNetは1段階、アンカーフリー、投票ベース、ボトムアップオブジェクト検出方法である。
視覚認識のための、近距離と長距離の両方のクラス条件の証拠を統合することができる。
論文 参考訳(メタデータ) (2020-07-05T14:45:01Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features [14.115782214599015]
ワンショットオブジェクト検出は、単一のデモによって定義されたオブジェクトを検出することで構成される。
ローカライズと認識を共同で行うワンステージシステムを構築している。
いくつかの挑戦的領域に対する実験的評価は,本手法が未知のクラスを検出できることを示唆している。
論文 参考訳(メタデータ) (2020-03-15T11:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。