論文の概要: Where, What, Whether: Multi-modal Learning Meets Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2012.10880v1
- Date: Sun, 20 Dec 2020 10:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 08:36:57.543820
- Title: Where, What, Whether: Multi-modal Learning Meets Pedestrian Detection
- Title(参考訳): 歩行者検出のためのマルチモーダル学習
- Authors: Yan Luo, Chongyang Zhang, Muming Zhao, Hao Zhou, Jun Sun
- Abstract要約: 歩行者検出タスクをtextbftextitWhere、textbftextitWhat、textbftextitWhetherに分解します。
広く使用されているデータセット(シティパーソンとカルテック)の最新の結果を実現します。
- 参考スコア(独自算出の注目度): 23.92066492219922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pedestrian detection benefits greatly from deep convolutional neural networks
(CNNs). However, it is inherently hard for CNNs to handle situations in the
presence of occlusion and scale variation. In this paper, we propose W$^3$Net,
which attempts to address above challenges by decomposing the pedestrian
detection task into \textbf{\textit{W}}here, \textbf{\textit{W}}hat and
\textbf{\textit{W}}hether problem directing against pedestrian localization,
scale prediction and classification correspondingly. Specifically, for a
pedestrian instance, we formulate its feature by three steps. i) We generate a
bird view map, which is naturally free from occlusion issues, and scan all
points on it to look for suitable locations for each pedestrian instance. ii)
Instead of utilizing pre-fixed anchors, we model the interdependency between
depth and scale aiming at generating depth-guided scales at different locations
for better matching instances of different sizes. iii) We learn a latent vector
shared by both visual and corpus space, by which false positives with similar
vertical structure but lacking human partial features would be filtered out. We
achieve state-of-the-art results on widely used datasets (Citypersons and
Caltech). In particular. when evaluating on heavy occlusion subset, our results
reduce MR$^{-2}$ from 49.3$\%$ to 18.7$\%$ on Citypersons, and from 45.18$\%$
to 28.33$\%$ on Caltech.
- Abstract(参考訳): 歩行者検出は深層畳み込みニューラルネットワーク(cnns)から大きな恩恵を受けている。
しかし、CNNが閉塞やスケールの変動がある状況に対処することは本質的に困難である。
本稿では,歩行者検出タスクを<textbf{\textit{w}}hat,<textbf{\textit{w}}hat,<textbf{\textit{w}}hether problem directing against pedestrian localization, scale prediction, and classification basedly)に分解することで,上記の課題に対処しようとするw$^3$netを提案する。
具体的には,歩行者の場合,その特徴を3つのステップで定式化する。
一 閉塞問題のない鳥のビューマップを作成し、その上のすべてのポイントをスキャンして、各歩行者のインスタンスに適した場所を探します。
二 あらかじめ固定したアンカーを利用する代わりに、異なる位置における深度誘導スケールの生成を目的とした深度とスケールの相互依存性をモデル化し、異なる大きさのインスタンスをよりよくマッチングする。
iii)視覚空間とコーパス空間の両方で共有される潜在ベクトルを学習し、同様の垂直構造を持つが人間の部分的特徴を欠いた偽陽性をフィルターアウトする。
広く使われているデータセット(CitypersonsとCaltech)について、最先端の結果を得る。
特に。
ヘビーオクルージョン部分集合の評価では、mr$^{-2}$を49.3$\%$から18.7$\%$に減らし、カルテックでは45.18$$$$$から28.33$\%$に減らした。
関連論文リスト
- GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文 参考訳(メタデータ) (2023-12-11T23:50:14Z) - Graph R-CNN: Towards Accurate 3D Object Detection with
Semantic-Decorated Local Graph [26.226885108862735]
2段検出器は3次元物体検出で大いに人気を博している。
ほとんどの2段式3D検出器は、2段目のRoI特徴抽出にグリッドポイント、ボクセルグリッド、またはサンプルキーポイントを利用する。
本稿ではこの問題を3つの側面で解決する。
論文 参考訳(メタデータ) (2022-08-07T02:56:56Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - Wasserstein Distances for Stereo Disparity Estimation [62.09272563885437]
既定義の離散値の集合上の分布を出力する、奥行き推定や不均一推定への既存のアプローチ。
これにより、真の深さや差がこれらの値と一致しない場合に、不正確な結果をもたらす。
任意の深さの値を出力できる新しいニューラルネットワークアーキテクチャを用いて、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-07-06T21:37:50Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。