論文の概要: Beta R-CNN: Looking into Pedestrian Detection from Another Perspective
- arxiv url: http://arxiv.org/abs/2210.12758v1
- Date: Sun, 23 Oct 2022 15:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:29:30.732557
- Title: Beta R-CNN: Looking into Pedestrian Detection from Another Perspective
- Title(参考訳): Beta R-CNN: 歩行者検出を別の視点から検討する
- Authors: Zixuan Xu, Banghuai Li, Ye Yuan, Anhong Dang
- Abstract要約: 本研究では,2次元ベータ分布に基づく新しい表現,Beta Representationを提案する。
フルボディと可視ボックスの関係を明示的に構築することで歩行者を撮影し、異なる確率値をピクセルに割り当てることで視覚的質量の中心を強調する。
結果として、BetaRepresentationは、混み合ったシーンで高度にオーバーラップされたインスタンスを、BetaNMSという新しいNMS戦略で区別する上で、はるかに優れている。
- 参考スコア(独自算出の注目度): 12.147992490256405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently significant progress has been made in pedestrian detection, but it
remains challenging to achieve high performance in occluded and crowded scenes.
It could be attributed mostly to the widely used representation of pedestrians,
i.e., 2D axis-aligned bounding box, which just describes the approximate
location and size of the object. Bounding box models the object as a uniform
distribution within the boundary, making pedestrians indistinguishable in
occluded and crowded scenes due to much noise. To eliminate the problem, we
propose a novel representation based on 2D beta distribution, named Beta
Representation. It pictures a pedestrian by explicitly constructing the
relationship between full-body and visible boxes, and emphasizes the center of
visual mass by assigning different probability values to pixels. As a result,
Beta Representation is much better for distinguishing highly-overlapped
instances in crowded scenes with a new NMS strategy named BetaNMS. What's more,
to fully exploit Beta Representation, a novel pipeline Beta R-CNN equipped with
BetaHead and BetaMask is proposed, leading to high detection performance in
occluded and crowded scenes.
- Abstract(参考訳): 近年,歩行者検出において顕著な進歩がみられたが,混み合ったシーンで高い性能を達成することは依然として困難である。
主に歩行者、すなわち物体のほぼ位置と大きさを記述した2次元軸に並ぶ境界ボックスが広く使われていることが原因であると考えられる。
バウンディングボックスは、物体を境界内の均一な分布としてモデル化し、多くの騒音のために、混み合ったシーンで歩行者が区別できないようにする。
この問題を解消するため,我々は2次元ベータ分布に基づく新しい表現であるbeta representationを提案する。
フルボディと可視ボックスの関係を明示的に構築することで歩行者を撮影し、異なる確率値をピクセルに割り当てることで視覚的質量の中心を強調する。
結果として、BetaRepresentationは、混み合ったシーンで高度にオーバーラップされたインスタンスを、BetaNMSという新しいNMS戦略で区別する上で、はるかに優れている。
さらに、ベータ表現を完全に活用するために、betaheadとbetamaskを備えた新しいパイプラインベータr-cnnが提案されている。
関連論文リスト
- 3D Object Detection from Point Cloud via Voting Step Diffusion [52.9966883689137]
既存の投票ベースのメソッドは、個々のオブジェクトの部分的な面から厳しいノイズとともに投票を受け取り、亜最適検出性能をもたらす。
雑音条件付きスコアネットワークを用いて分布のスコア関数を推定することにより、ランダムな3Dポイントを分布の高密度領域へ移動させる新しい手法を提案する。
大規模屋内3DシーンデータセットSUN RGB-DとScanNet V2の実験により,提案手法の優位性を実証した。
論文 参考訳(メタデータ) (2024-03-21T05:04:52Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Multiview Detection with Cardboard Human Modeling [23.072791405965415]
本研究では,人点雲モデリングに基づく新しい歩行者表現方式を提案する。
具体的には、人体深度推定のためのレイトレーシングを用いて、歩行者を地上の直立した薄い段ボールの点雲としてモデル化する。
論文 参考訳(メタデータ) (2022-07-05T12:47:26Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - NMS by Representative Region: Towards Crowded Pedestrian Detection by
Proposal Pairing [25.050500817717108]
歩行者間の重閉塞は、標準的非最大抑圧(NMS)に大きな課題を課す
本稿では,非閉塞な可視部分を活用するために,多くの偽陽性を伴わずに冗長なボックスを効果的に除去する,新しい代表領域NMS手法を提案する。
CrowdHumanとCityPersonsのベンチマーク実験は、混雑した状況下での歩行者検出に対する提案手法の有効性を十分に検証している。
論文 参考訳(メタデータ) (2020-03-28T06:33:54Z) - PANDA: A Gigapixel-level Human-centric Video Dataset [74.12377583050142]
大規模・長期・多目的視覚分析のための,最初のギガPixelレベルのフガン中心のViDeo dAtasetであるPANDAを提示する。
PANDAのビデオは、ギガピクセルのカメラで撮影され、広い視野と高解像度の細部の両方で現実世界のシーンをカバーしている。
PANDAは15,974.6kのバウンディングボックス、111.8kの微粒な属性ラベル、12.7kの軌道、2.2kのグループ、2.9kの相互作用を含む、リッチで階層的な基底構造アノテーションを提供する。
論文 参考訳(メタデータ) (2020-03-10T16:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。