論文の概要: Towards Weather-Robust 3D Human Body Reconstruction: Millimeter-Wave Radar-Based Dataset, Benchmark, and Multi-Modal Fusion
- arxiv url: http://arxiv.org/abs/2409.04851v2
- Date: Wed, 18 Dec 2024 03:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:20.137125
- Title: Towards Weather-Robust 3D Human Body Reconstruction: Millimeter-Wave Radar-Based Dataset, Benchmark, and Multi-Modal Fusion
- Title(参考訳): 気象・ロバスト3次元人体再構成に向けて:ミリ波レーダベースデータセット,ベンチマーク,マルチモーダルフュージョン
- Authors: Anjun Chen, Xiangyu Wang, Kun Shi, Yuchi Huo, Jiming Chen, Qi Ye,
- Abstract要約: RGB画像から3Dの人体を復元すると、天気は良いが、悪天候では劇的に劣化する。
mmWaveレーダーは、悪天候下で3Dの関節とメッシュを再構築するために使われてきた。
各種気象条件下で3次元人体を堅牢に再構築する最初のmmWave-RGB融合ソリューションであるImmFusionを設計する。
- 参考スコア(独自算出の注目度): 13.082760040398147
- License:
- Abstract: 3D human reconstruction from RGB images achieves decent results in good weather conditions but degrades dramatically in rough weather. Complementarily, mmWave radars have been employed to reconstruct 3D human joints and meshes in rough weather. However, combining RGB and mmWave signals for weather-robust 3D human reconstruction is still an open challenge, given the sparse nature of mmWave and the vulnerability of RGB images. The limited research about the impact of missing points and sparsity features of mmWave data on reconstruction performance, as well as the lack of available datasets for paired mmWave-RGB data, further complicates the process of fusing the two modalities. To fill these gaps, we build up an automatic 3D body annotation system with multiple sensors to collect a large-scale mmWave dataset. The dataset consists of synchronized and calibrated mmWave radar point clouds and RGB(D) images under different weather conditions and skeleton/mesh annotations for humans in these scenes. With this dataset, we conduct a comprehensive analysis about the limitations of single-modality reconstruction and the impact of missing points and sparsity on the reconstruction performance. Based on the guidance of this analysis, we design ImmFusion, the first mmWave-RGB fusion solution to robustly reconstruct 3D human bodies in various weather conditions. Specifically, our ImmFusion consists of image and point backbones for token feature extraction and a Transformer module for token fusion. The image and point backbones refine global and local features from original data, and the Fusion Transformer Module aims for effective information fusion of two modalities by dynamically selecting informative tokens. Extensive experiments demonstrate that ImmFusion can efficiently utilize the information of two modalities to achieve robust 3D human body reconstruction in various weather environments.
- Abstract(参考訳): RGB画像から3Dの人体を復元すると、天気は良いが、悪天候では劇的に劣化する。
mmWaveレーダーは、悪天候下で3Dの関節とメッシュを再構築するために使われてきた。
しかし、RGB と mmWave の信号を組み合わせることで、RGB 画像の弱さや弱さを考えると、RGB と mmWave の信号の組み合わせは依然として未解決の課題である。
mmWaveデータの欠落点と空間的特徴が再構成性能に与える影響、およびペア化した mmWave-RGB データのデータセットの欠如についての研究は、さらに2つのモダリティを融合させる過程を複雑にしている。
これらのギャップを埋めるために,複数のセンサを備えた自動3Dボディアノテーションシステムを構築し,大規模なmmWaveデータセットを収集する。
データセットは、同期および校正されたmmWaveレーダーポイント雲と、異なる天候条件下でのRGB(D)イメージと、これらのシーンにおける人間のスケルトン/メッシュアノテーションで構成されている。
本データセットでは,単一モダリティ再構築の限界と,欠落点と疎度が再建性能に与える影響を包括的に分析する。
この分析の指針に基づき,各種気象条件下で3次元人体を堅牢に再構築する最初のmmWave-RGB融合ソリューションであるImmFusionを設計した。
具体的には、ImmFusionはトークンの特徴抽出のための画像とポイントのバックボーンとトークン融合のためのTransformerモジュールで構成されています。
画像と点のバックボーンは元のデータからグローバルな特徴とローカルな特徴を洗練し、Fusion Transformer Moduleは情報トークンを動的に選択することで2つのモードの効果的な情報融合を目指している。
広汎な実験により,ImmFusionは2つのモードの情報を効率的に利用し,様々な気象環境下で頑健な3次元人体再構築を実現することができることが示された。
関連論文リスト
- Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
MUSESデータセットでは,マルチモーダルパノプティクスセグメンテーションの59.7 PQ,セマンティックセグメンテーションの78.2 mIoU,公開ベンチマークの1位にランクインした。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing [14.549639729808717]
現在の人間の感覚は主にカメラとLiDARに依存しており、それぞれに独自の強度と限界がある。
既存のマルチモーダル・フュージョン・ソリューションは、一般に固定されたモダリティの組み合わせのために設計されている。
この問題に対処するために、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T05:23:12Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - Explore the LiDAR-Camera Dynamic Adjustment Fusion for 3D Object Detection [38.809645060899065]
カメラとLiDARは、正確で堅牢な自動運転システムの情報センサーとして機能する。
これらのセンサーは、しばしば異質な性質を示し、分布のモダリティギャップをもたらす。
モーダル分布の整合と効果的なモーダル表現の学習を目的とした動的調整技術を導入する。
論文 参考訳(メタデータ) (2024-07-22T02:42:15Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。
実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文 参考訳(メタデータ) (2022-04-07T10:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。