論文の概要: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image
- arxiv url: http://arxiv.org/abs/2112.02753v1
- Date: Mon, 6 Dec 2021 03:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:30:53.224519
- Title: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image
- Title(参考訳): MobRecon:モノクロ画像からのモバイルフレンドリーな手メッシュ再構築
- Authors: Xingyu Chen, Yufeng Liu, Yajiao Dong, Xiong Zhang, Chongyang Ma,
Yanmin Xiong, Yuan Zhang, and Xiaoyan Guo
- Abstract要約: 本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。
私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
- 参考スコア(独自算出の注目度): 18.68544438724187
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose a framework for single-view hand mesh
reconstruction, which can simultaneously achieve high reconstruction accuracy,
fast inference speed, and temporal coherence. Specifically, for 2D encoding, we
propose lightweight yet effective stacked structures. Regarding 3D decoding, we
provide an efficient graph operator, namely depth-separable spiral convolution.
Moreover, we present a novel feature lifting module for bridging the gap
between 2D and 3D representations. This module starts with a map-based position
regression (MapReg) block to integrate the merits of both heatmap encoding and
position regression paradigms to improve 2D accuracy and temporal coherence.
Furthermore, MapReg is followed by pose pooling and pose-to-vertex lifting
approaches, which transform 2D pose encodings to semantic features of 3D
vertices. Overall, our hand reconstruction framework, called MobRecon,
comprises affordable computational costs and miniature model size, which
reaches a high inference speed of 83FPS on Apple A14 CPU. Extensive experiments
on popular datasets such as FreiHAND, RHD, and HO3Dv2 demonstrate that our
MobRecon achieves superior performance on reconstruction accuracy and temporal
coherence. Our code is publicly available at
https://github.com/SeanChenxy/HandMesh.
- Abstract(参考訳): 本研究では,高い再構成精度,高速な推定速度,時間的コヒーレンスを同時に達成できる,単視点ハンドメッシュ再構成のためのフレームワークを提案する。
具体的には,2次元符号化において,軽量で効果的な積層構造を提案する。
3次元デコーディングでは、深度分離可能なスパイラル畳み込みという効率的なグラフ演算子を提供する。
さらに, 2d 表現と 3d 表現のギャップを橋渡しするための新しい機能昇降モジュールを提案する。
このモジュールはmap-based position regression (mapreg)ブロックから始まり、2次元精度と時間的コヒーレンスを改善するためにヒートマップエンコーディングと位置回帰パラダイムの両方の利点を統合する。
さらにMapRegは、ポーズプーリングとポーズから頂点へのリフトアプローチによって、2Dのポーズエンコーディングを3D頂点のセマンティックな特徴に変換する。
全体として、MobReconと呼ばれる手作りのフレームワークは、安価な計算コストとミニチュアモデルサイズからなり、Apple A14 CPU上で83FPSの高速な推論速度に達する。
FreiHAND, RHD, HO3Dv2などの一般的なデータセットに対する大規模な実験は、我々のMobReconが復元精度と時間的コヒーレンスにおいて優れた性能を発揮することを示した。
私たちのコードはhttps://github.com/seanchenxy/handmeshで公開されています。
関連論文リスト
- Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。
提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文 参考訳(メタデータ) (2025-02-14T18:59:59Z) - SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - SfM on-the-fly: Get better 3D from What You Capture [24.141351494527303]
Structure from Motion (SfM) は、フォトグラメトリー、コンピュータビジョン、ロボティクスなどの分野で、常に研究のホットスポットとなっている。
この作業は、オリジナルのSfMの上に構築され、アップデートされたバージョンには3つの新しい進歩があり、より優れた3Dをキャプチャから得ることができる。
論文 参考訳(メタデータ) (2024-07-04T13:52:37Z) - InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは、2〜3枚の画像から正確な3D表現を構築する、新規で高速なニューラルリコンストラクションシステムである。
InstantSplatは、フレーム間の密集したステレオ先行とコビジュアライザの関係を統合して、シーンを徐々に拡張することでピクセルアライメントを初期化する。
SSIMは3D-GSでCOLMAPよりも0.3755から0.7624に向上し、複数の3D表現と互換性がある。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - XFormer: Fast and Accurate Monocular 3D Body Capture [29.36334648136584]
本稿では,モノクロ画像のみを入力とするコンシューマCPU上でのリアルタイム性能を実現する,新しいヒューマンメッシュ・モーションキャプチャ手法であるXFormerを提案する。
XFormerは(単一のCPUコア上では30fps以上)高速に動作します。
HRNetバックボーンにより、XFormerはHumm3.6および3DPWデータセット上で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-18T16:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。