論文の概要: ViFi-Loc: Multi-modal Pedestrian Localization using GAN with
Camera-Phone Correspondences
- arxiv url: http://arxiv.org/abs/2211.12021v1
- Date: Tue, 22 Nov 2022 05:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:51:34.587837
- Title: ViFi-Loc: Multi-modal Pedestrian Localization using GAN with
Camera-Phone Correspondences
- Title(参考訳): ViFi-Loc:カメラ音声対応GANを用いたマルチモーダル歩行者位置推定
- Authors: Hansi Liu, Kristin Dana, Marco Gruteser, Hongsheng Lu
- Abstract要約: 本稿では,歩行者のより正確な位置推定を行うために,ジェネレーティブ・アドバイサル・ネットワークアーキテクチャを提案する。
訓練中は、歩行者のカメラと電話のデータ通信のリンクを学習する。
GANは5つの屋外シーンにまたがって1~2mの局所化誤差で3次元座標を生成する。
- 参考スコア(独自算出の注目度): 7.953401800573514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Smart City and Vehicle-to-Everything (V2X) systems, acquiring pedestrians'
accurate locations is crucial to traffic safety. Current systems adopt cameras
and wireless sensors to detect and estimate people's locations via sensor
fusion. Standard fusion algorithms, however, become inapplicable when
multi-modal data is not associated. For example, pedestrians are out of the
camera field of view, or data from camera modality is missing. To address this
challenge and produce more accurate location estimations for pedestrians, we
propose a Generative Adversarial Network (GAN) architecture. During training,
it learns the underlying linkage between pedestrians' camera-phone data
correspondences. During inference, it generates refined position estimations
based only on pedestrians' phone data that consists of GPS, IMU and FTM.
Results show that our GAN produces 3D coordinates at 1 to 2 meter localization
error across 5 different outdoor scenes. We further show that the proposed
model supports self-learning. The generated coordinates can be associated with
pedestrian's bounding box coordinates to obtain additional camera-phone data
correspondences. This allows automatic data collection during inference. After
fine-tuning on the expanded dataset, localization accuracy is improved by up to
26%.
- Abstract(参考訳): スマートシティとV2Xシステムでは、歩行者の正確な位置の取得は交通安全にとって不可欠である。
現在のシステムは、センサー融合によって人の位置を検知し推定するために、カメラと無線センサーを採用している。
しかし、マルチモーダルデータが関連付けられない場合、標準融合アルゴリズムは適用できない。
例えば、歩行者はカメラの視野から外れたり、カメラのモダリティからのデータが欠落している。
この課題に対処し,より正確な歩行者の位置推定を行うため,gan(generative adversarial network)アーキテクチャを提案する。
訓練中は、歩行者のカメラと電話のデータ通信のリンクを学習する。
推定中は、GPS、IMU、FTMからなる歩行者の携帯電話データのみに基づいて、精密な位置推定を生成する。
その結果,GANは5つの屋外シーンで1~2mの局所化誤差で3次元座標を生成することがわかった。
さらに,提案モデルが自己学習を支援することを示す。
生成された座標は歩行者のバウンディングボックス座標と関連付けることができ、追加のカメラ電話データ対応を得ることができる。
これにより推論中の自動データ収集が可能になる。
拡張データセットを微調整した後、ローカライズ精度は最大26%向上した。
関連論文リスト
- Pedestrian Environment Model for Automated Driving [54.16257759472116]
歩行者の位置とポーズ情報を含む環境モデルを提案する。
画像から人間のポーズ推定器を用いて骨格情報を抽出する。
位置の3D情報を得るために,車両の位置と合わせて連続するフレームからデータを集約する。
論文 参考訳(メタデータ) (2023-08-17T16:10:58Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - SUPS: A Simulated Underground Parking Scenario Dataset for Autonomous
Driving [41.221988979184665]
SUPSは地下自動駐車のシミュレーションデータセットである。
複数のセンサーと連続したイメージに合わせた複数のセマンティックラベルを備えた複数のタスクをサポートする。
また、我々のデータセット上で、最先端のSLAMアルゴリズムと知覚モデルを評価する。
論文 参考訳(メタデータ) (2023-02-25T02:59:12Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving
with Long-Range Perception [0.0]
このデータセットは、同期して校正されたLiDAR、カメラ、および360度の視野をカバーするレーダーセンサーを備えた176のシーンで構成されている。
収集したデータは、昼間、夜、雨の間に、高速道路、都市、郊外で撮影された。
我々は3次元物体検出のための一次元・多モードベースラインモデルを訓練した。
論文 参考訳(メタデータ) (2022-11-17T10:19:59Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - Automatic Map Update Using Dashcam Videos [1.6911482053867475]
実時間変化検出と局所化に着目したSfMベースの自動マップ更新ソリューションを提案する。
本システムでは,スパースSfM点雲を用いて,2次元画像から検出した物体を3次元空間内に検出することができる。
論文 参考訳(メタデータ) (2021-09-24T18:00:57Z) - Cross-Camera Feature Prediction for Intra-Camera Supervised Person
Re-identification across Distant Scenes [70.30052164401178]
人物再識別(Re-ID)は、重複しないカメラビュー間で人物画像をマッチングすることを目的としている。
ICS-DS Re-IDは、カメラ内IDラベル付きクロスカメラアンペアデータを使用してトレーニングを行う。
カメラ横断型自己監視情報マイニングのためのクロスカメラ特徴予測法
グローバルレベルの特徴とローカルレベルの特徴の合同学習は、グローバルなローカルなクロスカメラ特徴予測スキームを形成する。
論文 参考訳(メタデータ) (2021-07-29T11:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。