Fugu-MT 論文翻訳(概要): Camera-LiDAR Cross-modality Gait Recognition

論文の概要: Camera-LiDAR Cross-modality Gait Recognition

arxiv url: http://arxiv.org/abs/2407.02038v3
Date: Thu, 4 Jul 2024 05:02:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 12:21:54.765939
Title: Camera-LiDAR Cross-modality Gait Recognition
Title（参考訳）: カメラ-LiDARクロスモダリティ歩行認識
Authors: Wenxuan Guo, Yingping Liang, Zhiyu Pan, Ziheng Xi, Jianjiang Feng, Jie Zhou,
Abstract要約: 本稿では,カメラとLiDAR,すなわちCL-Gait間の最初の相互モダリティ歩行認識フレームワークを提案する。私たちの知る限りでは、これはモダリティ間の歩行認識に対処する最初の試みである。
参考スコア（独自算出の注目度）: 29.694346498355443
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Gait recognition is a crucial biometric identification technique. Camera-based gait recognition has been widely applied in both research and industrial fields. LiDAR-based gait recognition has also begun to evolve most recently, due to the provision of 3D structural information. However, in certain applications, cameras fail to recognize persons, such as in low-light environments and long-distance recognition scenarios, where LiDARs work well. On the other hand, the deployment cost and complexity of LiDAR systems limit its wider application. Therefore, it is essential to consider cross-modality gait recognition between cameras and LiDARs for a broader range of applications. In this work, we propose the first cross-modality gait recognition framework between Camera and LiDAR, namely CL-Gait. It employs a two-stream network for feature embedding of both modalities. This poses a challenging recognition task due to the inherent matching between 3D and 2D data, exhibiting significant modality discrepancy. To align the feature spaces of the two modalities, i.e., camera silhouettes and LiDAR points, we propose a contrastive pre-training strategy to mitigate modality discrepancy. To make up for the absence of paired camera-LiDAR data for pre-training, we also introduce a strategy for generating data on a large scale. This strategy utilizes monocular depth estimated from single RGB images and virtual cameras to generate pseudo point clouds for contrastive pre-training. Extensive experiments show that the cross-modality gait recognition is very challenging but still contains potential and feasibility with our proposed model and pre-training strategy. To the best of our knowledge, this is the first work to address cross-modality gait recognition.
Abstract（参考訳）: 歩行認識は重要な生体認証技術である。カメラによる歩行認識は、研究分野と産業分野の両方に広く応用されている。 LiDARに基づく歩行認識も、3D構造情報の提供により、近年進化し始めている。しかし、特定のアプリケーションでは、LiDARがうまく機能する低照度環境や長距離認識シナリオなど、カメラは人を認識することができない。一方、LiDARシステムのデプロイメントコストと複雑さは、より広範なアプリケーションを制限する。したがって,カメラとLiDAR間のクロスモダリティ歩行認識を幅広い用途で検討することが不可欠である。そこで本研究では,カメラとLiDAR,すなわちCL-Gait間の最初のモダリティ間歩行認識フレームワークを提案する。両方のモダリティを組み込むために2ストリームネットワークを採用している。これは、3Dデータと2Dデータとの固有なマッチングにより、重要なモダリティの相違を示すため、困難な認識課題となる。両モードの特徴空間,すなわちカメラシルエットとLiDAR点の特徴空間を整列するために,モダリティの相違を緩和するための対照的な事前学習戦略を提案する。プレトレーニングのためのペアカメラ-LiDARデータの欠如を補うため,大規模にデータを生成する戦略も導入する。この戦略は、単一のRGB画像と仮想カメラから推定される単眼深度を利用して、対照的な事前学習のための擬似点雲を生成する。広汎な実験により、モダリティの歩行認識は非常に困難であるが、提案したモデルと事前学習戦略への可能性と実現可能性を含んでいることが示された。私たちの知る限りでは、これはモダリティ間の歩行認識に対処する最初の試みである。

関連論文リスト

What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文参考訳（メタデータ） (2025-01-28T14:12:32Z)
GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識はユニセンサーシステムの弱点を克服する能力によって注目を集めています本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2024-10-01T00:43:45Z)
Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文参考訳（メタデータ） (2024-05-08T17:59:53Z)
ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。 KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文参考訳（メタデータ） (2023-10-28T07:12:09Z)
Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文参考訳（メタデータ） (2023-09-25T08:56:22Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
Gait Recognition in Large-scale Free Environment via Single LiDAR [35.684257181154905]
深度を捉えるLiDARの能力は、ロボットの知覚にとって重要な要素であり、現実世界の歩行認識の可能性を秘めている。本稿では,頑健な歩行認識のための階層型多表現特徴相互作用ネットワーク(HMRNet)を提案する。 LiDARに基づく歩行認識研究を容易にするため,大規模かつ制約のない歩行データセットであるFreeGaitを紹介した。
論文参考訳（メタデータ） (2022-11-22T16:05:58Z)
LidarGait: Benchmarking 3D Gait Recognition with Point Clouds [18.22238384814974]
この研究は、ポイントクラウドからの正確な3D歩行機能を探究し、シンプルだが効率的な3D歩行認識フレームワークであるLidarGaitを提案する。提案手法は,3次元幾何情報を用いた表現学習のために,点雲を深度マップに分割する手法である。ポイントクラウドデータセットが不足しているため、私たちは最初の大規模LiDARベースの歩行認識データセットであるSUSTech1Kを構築しました。
論文参考訳（メタデータ） (2022-11-19T06:23:08Z)
Generative Range Imaging for Learning Scene Priors of 3D LiDAR Data [3.9447103367861542]
本稿では,データレベルドメイン転送に適用可能なLiDARレンジ画像の生成モデルを提案する。 LiDAR測定がポイント・バイ・ポイント・レンジ・イメージングに基づくことから,暗黙的な画像表現に基づく生成対向ネットワークを訓練する。本モデルの有効性と多様性を,ポイントベースおよびイメージベース・オブ・ザ・アーティファクト・ジェネレーティブ・モデルと比較した。
論文参考訳（メタデータ） (2022-10-21T06:08:39Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。我々は、最先端の核融合法を初めてベンチマークした。
論文参考訳（メタデータ） (2022-05-30T09:35:37Z)
LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文参考訳（メタデータ） (2021-08-17T08:53:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。