論文の概要: Optimizing Camera Configurations for Multi-View Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2312.02144v1
- Date: Mon, 4 Dec 2023 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 13:53:35.835518
- Title: Optimizing Camera Configurations for Multi-View Pedestrian Detection
- Title(参考訳): 多視点歩行者検出のためのカメラ構成最適化
- Authors: Yunzhong Hou, Xingjian Leng, Tom Gedeon, Liang Zheng
- Abstract要約: 本研究では,トランス方式のカメラ構成生成器を特徴とする新しいソリューションを提案する。
強化学習を用いて、このジェネレータは、アクション空間内の広大な組み合わせを自律的に探索し、最も高い検出精度を与える構成を探索する。
複数のシミュレーションシナリオにおいて、トランスフォーマーモデルによって生成された構成は、人間の専門家が設計したランダム検索、最適化、構成よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 21.89117952343898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jointly considering multiple camera views (multi-view) is very effective for
pedestrian detection under occlusion. For such multi-view systems, it is
critical to have well-designed camera configurations, including camera
locations, directions, and fields-of-view (FoVs). Usually, these configurations
are crafted based on human experience or heuristics. In this work, we present a
novel solution that features a transformer-based camera configuration
generator. Using reinforcement learning, this generator autonomously explores
vast combinations within the action space and searches for configurations that
give the highest detection accuracy according to the training dataset. The
generator learns advanced techniques like maximizing coverage, minimizing
occlusion, and promoting collaboration. Across multiple simulation scenarios,
the configurations generated by our transformer-based model consistently
outperform random search, heuristic-based methods, and configurations designed
by human experts, shedding light on future camera layout optimization.
- Abstract(参考訳): 複数のカメラビュー(マルチビュー)を共同で考えることは、閉塞下の歩行者検出に非常に効果的である。
このようなマルチビューシステムでは、カメラの位置、方向、視野(FoV)など、よく設計されたカメラ構成を持つことが重要である。
通常、これらの構成は人間の経験やヒューリスティックに基づいている。
本稿では,トランスフォーマーを用いたカメラ構成生成装置を特徴とする新しいソリューションを提案する。
強化学習を用いて、このジェネレータは、アクション空間内の膨大な組み合わせを自律的に探索し、トレーニングデータセットに従って最も高い検出精度を与える構成を探索する。
ジェネレータは、カバレッジの最大化、咬合の最小化、コラボレーションの促進といった高度な技術を学ぶ。
複数のシミュレーションシナリオにおいて、トランスフォーマーベースモデルによって生成された構成は、ランダム検索、ヒューリスティックベースの手法、そして人間の専門家が設計した構成を一貫して上回り、将来のカメラレイアウトの最適化に光を当てる。
関連論文リスト
- Learning Online Policies for Person Tracking in Multi-View Environments [4.62316736194615]
MVSparseは、複数の同期カメラにまたがる協調的多人数追跡のための新しいフレームワークである。
MVSparseシステムは、エッジサーバベースのモデルと分散軽量強化学習(RL)エージェントを組み合わせた、慎重にオーケストレーションされたパイプラインで構成されている。
私たちの貢献には、マルチカメラの歩行者追跡データセットの実証分析、マルチカメラの開発、マルチパーソナリティ検出パイプラインの開発、MVSparseの実装などが含まれています。
論文 参考訳(メタデータ) (2023-12-26T02:57:11Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - Toward Global Sensing Quality Maximization: A Configuration Optimization
Scheme for Camera Networks [15.795407587722924]
パラメータ化カメラネットワークモデルの再構成戦略について検討する。
我々は、カメラネットワークによる目標のセンシング品質を測定する単一の量を形成する。
広範囲なシミュレーションと実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-11-28T09:21:47Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - PlenoptiCam v1.0: A light-field imaging framework [8.467466998915018]
光界カメラは狭帯域深度センシングアプリケーションにおいてリッチな3次元情報検索において重要な役割を担っている。
レンズカメラによる露光から光フィールドを構成する際の重要な障害は、4次元画像データを計算的に調整し、調整し、再配置することである。
特定の望遠カメラ専用のパイプラインを調整することで、全体的な画質を向上させるためのいくつかの試みが提案されている。
論文 参考訳(メタデータ) (2020-10-14T09:23:18Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z) - Redesigning SLAM for Arbitrary Multi-Camera Systems [51.81798192085111]
SLAMシステムにより多くのカメラを追加することで、堅牢性と精度が向上するが、視覚的なフロントエンドの設計は大幅に複雑になる。
本研究では,任意のマルチカメラ装置で動作する適応SLAMシステムを提案する。
これらの修正を応用した最先端の視覚慣性計測装置を試作し, 改良したパイプラインが広い範囲のカメラ装置に適応可能であることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-03-04T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。