論文の概要: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image
- arxiv url: http://arxiv.org/abs/2112.02753v1
- Date: Mon, 6 Dec 2021 03:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:30:53.224519
- Title: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image
- Title(参考訳): MobRecon:モノクロ画像からのモバイルフレンドリーな手メッシュ再構築
- Authors: Xingyu Chen, Yufeng Liu, Yajiao Dong, Xiong Zhang, Chongyang Ma,
Yanmin Xiong, Yuan Zhang, and Xiaoyan Guo
- Abstract要約: 本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。
私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
- 参考スコア(独自算出の注目度): 18.68544438724187
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose a framework for single-view hand mesh
reconstruction, which can simultaneously achieve high reconstruction accuracy,
fast inference speed, and temporal coherence. Specifically, for 2D encoding, we
propose lightweight yet effective stacked structures. Regarding 3D decoding, we
provide an efficient graph operator, namely depth-separable spiral convolution.
Moreover, we present a novel feature lifting module for bridging the gap
between 2D and 3D representations. This module starts with a map-based position
regression (MapReg) block to integrate the merits of both heatmap encoding and
position regression paradigms to improve 2D accuracy and temporal coherence.
Furthermore, MapReg is followed by pose pooling and pose-to-vertex lifting
approaches, which transform 2D pose encodings to semantic features of 3D
vertices. Overall, our hand reconstruction framework, called MobRecon,
comprises affordable computational costs and miniature model size, which
reaches a high inference speed of 83FPS on Apple A14 CPU. Extensive experiments
on popular datasets such as FreiHAND, RHD, and HO3Dv2 demonstrate that our
MobRecon achieves superior performance on reconstruction accuracy and temporal
coherence. Our code is publicly available at
https://github.com/SeanChenxy/HandMesh.
- Abstract(参考訳): 本研究では,高い再構成精度,高速な推定速度,時間的コヒーレンスを同時に達成できる,単視点ハンドメッシュ再構成のためのフレームワークを提案する。
具体的には,2次元符号化において,軽量で効果的な積層構造を提案する。
3次元デコーディングでは、深度分離可能なスパイラル畳み込みという効率的なグラフ演算子を提供する。
さらに, 2d 表現と 3d 表現のギャップを橋渡しするための新しい機能昇降モジュールを提案する。
このモジュールはmap-based position regression (mapreg)ブロックから始まり、2次元精度と時間的コヒーレンスを改善するためにヒートマップエンコーディングと位置回帰パラダイムの両方の利点を統合する。
さらにMapRegは、ポーズプーリングとポーズから頂点へのリフトアプローチによって、2Dのポーズエンコーディングを3D頂点のセマンティックな特徴に変換する。
全体として、MobReconと呼ばれる手作りのフレームワークは、安価な計算コストとミニチュアモデルサイズからなり、Apple A14 CPU上で83FPSの高速な推論速度に達する。
FreiHAND, RHD, HO3Dv2などの一般的なデータセットに対する大規模な実験は、我々のMobReconが復元精度と時間的コヒーレンスにおいて優れた性能を発揮することを示した。
私たちのコードはhttps://github.com/seanchenxy/handmeshで公開されています。
関連論文リスト
- GSFusion: Online RGB-D Mapping Where Gaussian Splatting Meets TSDF Fusion [12.964675001994124]
従来の融合アルゴリズムは3次元シーンの空間構造を保存する。
ヴィジュアライゼーションの面では現実主義を欠いていることが多い。
GSFusionはレンダリング品質を犠牲にすることなく計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-22T18:32:50Z) - SfM on-the-fly: Get better 3D from What You Capture [24.141351494527303]
Structure from Motion (SfM) は、フォトグラメトリー、コンピュータビジョン、ロボティクスなどの分野で、常に研究のホットスポットとなっている。
この作業は、オリジナルのSfMの上に構築され、アップデートされたバージョンには3つの新しい進歩があり、より優れた3Dをキャプチャから得ることができる。
論文 参考訳(メタデータ) (2024-07-04T13:52:37Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - XFormer: Fast and Accurate Monocular 3D Body Capture [29.36334648136584]
本稿では,モノクロ画像のみを入力とするコンシューマCPU上でのリアルタイム性能を実現する,新しいヒューマンメッシュ・モーションキャプチャ手法であるXFormerを提案する。
XFormerは(単一のCPUコア上では30fps以上)高速に動作します。
HRNetバックボーンにより、XFormerはHumm3.6および3DPWデータセット上で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-18T16:45:26Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。