Fugu-MT 論文翻訳(概要): Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data

論文の概要: Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data

arxiv url: http://arxiv.org/abs/2003.09572v3
Date: Fri, 11 Mar 2022 13:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 13:07:57.979653
Title: Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data
Title（参考訳）: マルチモーダルデータを用いた単眼実時間ハンドシェイプとモーションキャプチャ
Authors: Yuxiao Zhou and Marc Habermann and Weipeng Xu and Ikhsanul Habibie and Christian Theobalt and Feng Xu
Abstract要約: 本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。 3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
参考スコア（独自算出の注目度）: 77.34069717612493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel method for monocular hand shape and pose estimation at unprecedented runtime performance of 100fps and at state-of-the-art accuracy. This is enabled by a new learning based architecture designed such that it can make use of all the sources of available hand training data: image data with either 2D or 3D annotations, as well as stand-alone 3D animations without corresponding image data. It features a 3D hand joint detection module and an inverse kinematics module which regresses not only 3D joint positions but also maps them to joint rotations in a single feed-forward pass. This output makes the method more directly usable for applications in computer vision and graphics compared to only regressing 3D joint positions. We demonstrate that our architectural design leads to a significant quantitative and qualitative improvement over the state of the art on several challenging benchmarks. Our model is publicly available for future research.
Abstract（参考訳）: 本稿では,従来の100fpsの動作性能と最先端の精度で単眼手形状とポーズ推定を行う新しい手法を提案する。これは、2dまたは3dアノテーションを持つ画像データと、対応する画像データなしでスタンドアロンの3dアニメーションを使用するように設計された新しい学習ベースのアーキテクチャによって実現されている。 3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。この出力により、3次元関節位置のみを後退させるよりも、コンピュータビジョンやグラフィックスのアプリケーションで直接利用できる。我々は,我々のアーキテクチャ設計が,いくつかの挑戦的なベンチマークにおいて,最先端技術に対する定量的かつ質的な改善につながることを実証した。私たちのモデルは将来の研究のために公開されています。

関連論文リスト

Toward a Real-Time Framework for Accurate Monocular 3D Human Pose Estimation with Geometric Priors [0.0]
リアルタイム2Dキーポイント検出と幾何学的2D-to-3Dリフトを組み合わせたフレームワークを提案する。特殊なハードウェアを必要とせずにモノクロ画像から高速でパーソナライズされた正確な3次元ポーズ推定を実現する方法について論じる。
論文参考訳（メタデータ） (2025-07-21T08:18:23Z)
JGHand: Joint-Driven Animatable Hand Avater via 3D Gaussian Splatting [3.1143479095236892]
Jointly 3D Gaussian Hand (JGHand)は、新しい3D Gaussian Splatting (3DGS)ベースの手表現である。 JGHandは、最先端の手法を超越した、高品質なリアルタイムレンダリングを実現する。
論文参考訳（メタデータ） (2025-01-31T12:33:24Z)
The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:40Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文参考訳（メタデータ） (2023-09-15T06:17:22Z)
Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文参考訳（メタデータ） (2023-08-18T12:57:22Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文参考訳（メタデータ） (2022-01-24T09:44:11Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。