Fugu-MT 論文翻訳(概要): MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image

論文の概要: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image

arxiv url: http://arxiv.org/abs/2112.02753v1
Date: Mon, 6 Dec 2021 03:01:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-07 16:30:53.224519
Title: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image
Title（参考訳）: MobRecon:モノクロ画像からのモバイルフレンドリーな手メッシュ再構築
Authors: Xingyu Chen, Yufeng Liu, Yajiao Dong, Xiong Zhang, Chongyang Ma, Yanmin Xiong, Yuan Zhang, and Xiaoyan Guo
Abstract要約: 本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
参考スコア（独自算出の注目度）: 18.68544438724187
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we propose a framework for single-view hand mesh reconstruction, which can simultaneously achieve high reconstruction accuracy, fast inference speed, and temporal coherence. Specifically, for 2D encoding, we propose lightweight yet effective stacked structures. Regarding 3D decoding, we provide an efficient graph operator, namely depth-separable spiral convolution. Moreover, we present a novel feature lifting module for bridging the gap between 2D and 3D representations. This module starts with a map-based position regression (MapReg) block to integrate the merits of both heatmap encoding and position regression paradigms to improve 2D accuracy and temporal coherence. Furthermore, MapReg is followed by pose pooling and pose-to-vertex lifting approaches, which transform 2D pose encodings to semantic features of 3D vertices. Overall, our hand reconstruction framework, called MobRecon, comprises affordable computational costs and miniature model size, which reaches a high inference speed of 83FPS on Apple A14 CPU. Extensive experiments on popular datasets such as FreiHAND, RHD, and HO3Dv2 demonstrate that our MobRecon achieves superior performance on reconstruction accuracy and temporal coherence. Our code is publicly available at https://github.com/SeanChenxy/HandMesh.
Abstract（参考訳）: 本研究では,高い再構成精度,高速な推定速度,時間的コヒーレンスを同時に達成できる,単視点ハンドメッシュ再構成のためのフレームワークを提案する。具体的には,2次元符号化において,軽量で効果的な積層構造を提案する。 3次元デコーディングでは、深度分離可能なスパイラル畳み込みという効率的なグラフ演算子を提供する。さらに, 2d 表現と 3d 表現のギャップを橋渡しするための新しい機能昇降モジュールを提案する。このモジュールはmap-based position regression (mapreg)ブロックから始まり、2次元精度と時間的コヒーレンスを改善するためにヒートマップエンコーディングと位置回帰パラダイムの両方の利点を統合する。さらにMapRegは、ポーズプーリングとポーズから頂点へのリフトアプローチによって、2Dのポーズエンコーディングを3D頂点のセマンティックな特徴に変換する。全体として、MobReconと呼ばれる手作りのフレームワークは、安価な計算コストとミニチュアモデルサイズからなり、Apple A14 CPU上で83FPSの高速な推論速度に達する。 FreiHAND, RHD, HO3Dv2などの一般的なデータセットに対する大規模な実験は、我々のMobReconが復元精度と時間的コヒーレンスにおいて優れた性能を発揮することを示した。私たちのコードはhttps://github.com/seanchenxy/handmeshで公開されています。

関連論文リスト

TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文参考訳（メタデータ） (2025-02-14T18:59:59Z)
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文参考訳（メタデータ） (2025-01-08T18:52:03Z)
GSFusion: Online RGB-D Mapping Where Gaussian Splatting Meets TSDF Fusion [12.964675001994124]
従来の融合アルゴリズムは3次元シーンの空間構造を保存する。ヴィジュアライゼーションの面では現実主義を欠いていることが多い。 GSFusionはレンダリング品質を犠牲にすることなく計算効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-22T18:32:50Z)
SfM on-the-fly: Get better 3D from What You Capture [24.141351494527303]
Structure from Motion (SfM) は、フォトグラメトリー、コンピュータビジョン、ロボティクスなどの分野で、常に研究のホットスポットとなっている。この作業は、オリジナルのSfMの上に構築され、アップデートされたバージョンには3つの新しい進歩があり、より優れた3Dをキャプチャから得ることができる。
論文参考訳（メタデータ） (2024-07-04T13:52:37Z)
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。 1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文参考訳（メタデータ） (2024-03-27T17:40:14Z)
Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文参考訳（メタデータ） (2023-12-20T16:14:58Z)
Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文参考訳（メタデータ） (2023-12-14T17:18:34Z)
SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。 2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文参考訳（メタデータ） (2023-06-28T22:36:44Z)
XFormer: Fast and Accurate Monocular 3D Body Capture [29.36334648136584]
本稿では,モノクロ画像のみを入力とするコンシューマCPU上でのリアルタイム性能を実現する,新しいヒューマンメッシュ・モーションキャプチャ手法であるXFormerを提案する。 XFormerは(単一のCPUコア上では30fps以上)高速に動作します。 HRNetバックボーンにより、XFormerはHumm3.6および3DPWデータセット上で最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-05-18T16:45:26Z)
CheckerPose: Progressive Dense Keypoint Localization for Object Pose Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。近年の研究では、高密度対応型解の大きな可能性を示している。そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-29T17:30:53Z)
Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文参考訳（メタデータ） (2021-12-24T02:43:58Z)
Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文参考訳（メタデータ） (2020-09-07T17:58:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。