論文の概要: Booster-SHOT: Boosting Stacked Homography Transformations for Multiview
Pedestrian Detection with Attention
- arxiv url: http://arxiv.org/abs/2208.09211v1
- Date: Fri, 19 Aug 2022 08:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:13:37.040405
- Title: Booster-SHOT: Boosting Stacked Homography Transformations for Multiview
Pedestrian Detection with Attention
- Title(参考訳): Booster-SHOT:注意を伴う多視点歩行者検出のための積み重ねホログラフィ変換
- Authors: Jinwoo Hwang, Philipp Benz, Tae-hoon Kim
- Abstract要約: 本稿では,既存のマルチビュー検出手法の性能向上を目的としたHAM(Homography Attention Module)を提案する。
また,提案するHAMを組み込んだ多視点歩行者検出のためのエンドツーエンドの畳み込み手法であるBooster-SHOTを提案する。
- 参考スコア(独自算出の注目度): 9.90940170205912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving multi-view aggregation is integral for multi-view pedestrian
detection, which aims to obtain a bird's-eye-view pedestrian occupancy map from
images captured through a set of calibrated cameras. Inspired by the success of
attention modules for deep neural networks, we first propose a Homography
Attention Module (HAM) which is shown to boost the performance of existing
end-to-end multiview detection approaches by utilizing a novel channel gate and
spatial gate. Additionally, we propose Booster-SHOT, an end-to-end
convolutional approach to multiview pedestrian detection incorporating our
proposed HAM as well as elements from previous approaches such as view-coherent
augmentation or stacked homography transformations. Booster-SHOT achieves 92.9%
and 94.2% for MODA on Wildtrack and MultiviewX respectively, outperforming the
state-of-the-art by 1.4% on Wildtrack and 0.5% on MultiviewX, achieving
state-of-the-art performance overall for standard evaluation metrics used in
multi-view pedestrian detection.
- Abstract(参考訳): マルチビューアグリゲーションの改善は、キャリブレーションされたカメラで撮影された画像から鳥視点歩行者占有マップを得ることを目的としているマルチビュー歩行者検出に不可欠である。
ディープニューラルネットワークにおけるアテンションモジュールの成功に触発されて,我々はまず,新しいチャネルゲートと空間ゲートを利用して,既存のエンドツーエンドのマルチビュー検出手法の性能向上を図ったHomography Attention Module (HAM)を提案する。
さらに,提案するHAMと,ビューコヒーレント拡張や階層化ホモグラフィ変換といった従来手法の要素を取り入れた,多視点歩行者検出のためのエンドツーエンドの畳み込み手法であるBooster-SHOTを提案する。
Booster-SHOTは、WildtrackとMultiviewXのMODAの92.9%と94.2%をそれぞれ達成し、WildtrackとMultiviewXの1.4%、MultiviewXの0.5%を上回り、マルチビューの歩行者検出に使用される標準的な評価指標の総合的なパフォーマンスを達成する。
関連論文リスト
- Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Lifting Multi-View Detection and Tracking to the Bird's Eye View [5.679775668038154]
マルチビュー検出と3Dオブジェクト認識の最近の進歩により、性能が大幅に向上した。
パラメータフリーとパラメータ化の両方の現代的なリフト法とマルチビューアグリゲーションを比較した。
堅牢な検出を学習するために,複数のステップの特徴を集約するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-19T09:33:07Z) - Learning Online Policies for Person Tracking in Multi-View Environments [4.62316736194615]
MVSparseは、複数の同期カメラにまたがる協調的多人数追跡のための新しいフレームワークである。
MVSparseシステムは、エッジサーバベースのモデルと分散軽量強化学習(RL)エージェントを組み合わせた、慎重にオーケストレーションされたパイプラインで構成されている。
私たちの貢献には、マルチカメラの歩行者追跡データセットの実証分析、マルチカメラの開発、マルチパーソナリティ検出パイプラインの開発、MVSparseの実装などが含まれています。
論文 参考訳(メタデータ) (2023-12-26T02:57:11Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - EarlyBird: Early-Fusion for Multi-View Tracking in the Bird's Eye View [6.093524345727119]
本研究では,バードアイビューの早期融合により,検出と追跡の両面で高い精度が得られることを示す。
EarlyBirdは最先端の手法より優れており、現在のWildtrackの状態を+4.6 MOTAと+5.6 IDF1で改善している。
論文 参考訳(メタデータ) (2023-10-20T08:27:21Z) - Enhancing Multi-Camera People Tracking with Anchor-Guided Clustering and
Spatio-Temporal Consistency ID Re-Assignment [22.531044994763487]
本稿では,アンカークラスタリング誘導を用いたマルチカメラによる複数人物追跡手法を提案する。
提案手法は,各個人固有の重要な特徴を特定することによって,トラッキングの精度を向上させることを目的としている。
この手法は, 合成データと実世界のデータの両方を扱う上で, 堅牢性と有効性を示した。
論文 参考訳(メタデータ) (2023-04-19T07:38:15Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。