論文の概要: AdaptiveFusion: Adaptive Multi-Modal Multi-View Fusion for 3D Human Body Reconstruction
- arxiv url: http://arxiv.org/abs/2409.04851v1
- Date: Sat, 7 Sep 2024 15:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:20:37.057031
- Title: AdaptiveFusion: Adaptive Multi-Modal Multi-View Fusion for 3D Human Body Reconstruction
- Title(参考訳): AdaptiveFusion:3次元人体再構成のための適応型マルチモーダル・マルチビュー・フュージョン
- Authors: Anjun Chen, Xiangyu Wang, Zhi Xu, Kun Shi, Yan Qin, Yuchi Huo, Jiming Chen, Qi Ye,
- Abstract要約: 本稿では,汎用適応型マルチモーダル・マルチビュー融合フレームワークAdaptiveFusionを提案する。
本手法は最先端の核融合法と比較して精度が高い。
- 参考スコア(独自算出の注目度): 15.18875378385477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in sensor technology and deep learning have led to significant progress in 3D human body reconstruction. However, most existing approaches rely on data from a specific sensor, which can be unreliable due to the inherent limitations of individual sensing modalities. On the other hand, existing multi-modal fusion methods generally require customized designs based on the specific sensor combinations or setups, which limits the flexibility and generality of these methods. Furthermore, conventional point-image projection-based and Transformer-based fusion networks are susceptible to the influence of noisy modalities and sensor poses. To address these limitations and achieve robust 3D human body reconstruction in various conditions, we propose AdaptiveFusion, a generic adaptive multi-modal multi-view fusion framework that can effectively incorporate arbitrary combinations of uncalibrated sensor inputs. By treating different modalities from various viewpoints as equal tokens, and our handcrafted modality sampling module by leveraging the inherent flexibility of Transformer models, AdaptiveFusion is able to cope with arbitrary numbers of inputs and accommodate noisy modalities with only a single training network. Extensive experiments on large-scale human datasets demonstrate the effectiveness of AdaptiveFusion in achieving high-quality 3D human body reconstruction in various environments. In addition, our method achieves superior accuracy compared to state-of-the-art fusion methods.
- Abstract(参考訳): 近年のセンサ技術と深層学習の進歩は、3次元の人体再構築に大きな進歩をもたらした。
しかし、既存のほとんどのアプローチは特定のセンサーのデータに依存しており、個々の知覚モーダルに固有の制限があるため信頼性が低い。
一方、既存のマルチモーダル融合法は、一般的に特定のセンサーの組み合わせや設定に基づいてカスタマイズされた設計を必要とするため、これらの手法の柔軟性と汎用性は制限される。
さらに,従来の点像投影型およびトランスフォーマー型核融合ネットワークは,ノイズモードやセンサポーズの影響を受けやすい。
これらの制約に対処し、様々な条件下で堅牢な3次元人体再構築を実現するために、センサ入力の任意の組み合わせを効果的に活用できる汎用適応型マルチモーダル・マルチビュー融合フレームワークAdaptiveFusionを提案する。
様々な視点から異なるモダリティを等価なトークンとして扱い、トランスフォーマーモデル固有の柔軟性を活用して手作りのモダリティサンプリングモジュールにより、AdaptiveFusionは任意の数の入力に対処し、単一のトレーニングネットワークでノイズの多いモダリティに対応することができる。
大規模人体データセットの大規模な実験は、様々な環境で高品質な3次元人体再構築を実現する上で、AdaptiveFusionの有効性を示す。
また,本手法は最先端の核融合法と比較して精度が高い。
関連論文リスト
- Differentiable Radio Frequency Ray Tracing for Millimeter-Wave Sensing [29.352303349003165]
我々はmmWaveベースの3D再構成のための微分可能なフレームワークDiffSBRを提案する。
DiffSBRは、仮想3Dモデルからレーダーポイント雲をシミュレートするために、微分可能なレイトレーシングエンジンを組み込んでいる。
各種レーダーハードウェアを用いた実験は、ディフSBRの微細な3D再構成能力を検証する。
論文 参考訳(メタデータ) (2023-11-22T06:13:39Z) - ImmFusion: Robust mmWave-RGB Fusion for 3D Human Body Reconstruction in
All Weather Conditions [23.146325482439988]
ImmFusionは3次元人体を頑健に再構成する最初のmmWave-RGB核融合法である。
本手法の精度は, 最先端のトランスフォーマーを用いたLiDAR-camera fusion法よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T03:30:18Z) - mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for
Millimeter Wave Radar [10.610455816814985]
ミリ波(mmWave)レーダーは、煙、雨、雪、照明の悪さといった悪環境でも使えるため、人気が高まっている。
以前の研究では、ノイズやスパースなmmWaveレーダ信号から3D骨格やメッシュを再構築する可能性を探っている。
このデータセットは、同期および校正されたmmWaveレーダーポイント雲と、異なるシーンにおけるRGB(D)イメージと、シーン内の人間のためのスケルトン/メシュアノテーションで構成されている。
論文 参考訳(メタデータ) (2022-09-12T08:00:31Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - Total Scale: Face-to-Body Detail Reconstruction from Sparse RGBD Sensors [52.38220261632204]
PIFuをベースとした再建術では, 顔面の平坦化が頻発する。
再建した顔のディテールの質を高めるために,2段階のPIFu表現を提案する。
顔の鮮明な細部と身体形状の変形におけるアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2021-12-03T18:46:49Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep
Learning [9.26903816093995]
mmWaveレーダーは、低視認性、煙、ほこり、密集した霧環境において効果的なセンシング技術として示されている。
3DRIMR(3DRIMR)は,物体の3次元形状を高密度の細かなクラウド形式で再構成する深層学習型アーキテクチャである。
実験により,3DRIMRの3Dオブジェクト再構成の有効性が実証され,標準技術よりも性能が向上した。
論文 参考訳(メタデータ) (2021-08-05T21:24:57Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。