Fugu-MT 論文翻訳(概要): Multi-View Video-Based 3D Hand Pose Estimation

論文の概要: Multi-View Video-Based 3D Hand Pose Estimation

arxiv url: http://arxiv.org/abs/2109.11747v1
Date: Fri, 24 Sep 2021 05:20:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-27 14:24:39.403035
Title: Multi-View Video-Based 3D Hand Pose Estimation
Title（参考訳）: マルチビュー映像ベース3次元ハンドポース推定
Authors: Leyla Khaleghi, Alireza Sepas Moghaddam, Joshua Marshall, Ali Etemad
Abstract要約: 提案するマルチビュービデオベース3Dハンドデータセットは,手動のマルチビュービデオと地動3Dポーズラベルから構成される。私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。次に、手の視覚的埋め込みを得るために、画像エンコーダからなるニューラルネットワークであるMuViHandNetを実装した。
参考スコア（独自算出の注目度）: 11.65577683784217
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Hand pose estimation (HPE) can be used for a variety of human-computer interaction applications such as gesture-based control for physical or virtual/augmented reality devices. Recent works have shown that videos or multi-view images carry rich information regarding the hand, allowing for the development of more robust HPE systems. In this paper, we present the Multi-View Video-Based 3D Hand (MuViHand) dataset, consisting of multi-view videos of the hand along with ground-truth 3D pose labels. Our dataset includes more than 402,000 synthetic hand images available in 4,560 videos. The videos have been simultaneously captured from six different angles with complex backgrounds and random levels of dynamic lighting. The data has been captured from 10 distinct animated subjects using 12 cameras in a semi-circle topology where six tracking cameras only focus on the hand and the other six fixed cameras capture the entire body. Next, we implement MuViHandNet, a neural pipeline consisting of image encoders for obtaining visual embeddings of the hand, recurrent learners to learn both temporal and angular sequential information, and graph networks with U-Net architectures to estimate the final 3D pose information. We perform extensive experiments and show the challenging nature of this new dataset as well as the effectiveness of our proposed method. Ablation studies show the added value of each component in MuViHandNet, as well as the benefit of having temporal and sequential information in the dataset.
Abstract（参考訳）: ハンドポーズ推定(HPE)は、物理または仮想または拡張現実デバイスのためのジェスチャーベースの制御など、さまざまな人間とコンピュータのインタラクションアプリケーションに使用できる。近年の研究では、ビデオやマルチビュー画像は手に関する豊富な情報を持ち、より堅牢なHPEシステムの開発を可能にすることが示されている。本稿では,マルチビュービデオを用いた3dハンド(muvihand)データセットについて紹介する。私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。ビデオは6つの異なる角度から同時に撮影され、複雑な背景とランダムなダイナミック照明のレベルがある。 6台の追跡カメラが手のみに焦点を合わせ、残りの6台の固定カメラが体全体を撮影する半円トポロジーで12台のカメラを使って、10人のアニメーション被験者からデータを収集した。次に、手指の視覚的埋め込みを得るための画像エンコーダと、時間的および角的なシーケンシャル情報を学ぶための繰り返し学習者と、U-Netアーキテクチャを用いたグラフネットワークからなるニューラルネットワーク、MuViHandNetを実装し、最終的な3Dポーズ情報を推定する。我々は,この新しいデータセットの難解な性質と提案手法の有効性を示すため,広範な実験を行った。アブレーション調査では、MuViHandNetの各コンポーネントの付加価値に加えて、データセットに時間的およびシーケンシャルな情報を持つことのメリットが示されている。

関連論文リスト

SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文参考訳（メタデータ） (2025-07-16T17:59:03Z)
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。 EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文参考訳（メタデータ） (2025-03-02T18:49:48Z)
Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Video Generation [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。提案するSynFMCデータセットには、さまざまなオブジェクトと環境カテゴリが含まれている。特定のルールに従って様々な動きパターンをカバーし、一般的な、複雑な現実世界のシナリオをシミュレートする。完全な6Dポーズ情報は、ビデオ内のオブジェクトとカメラからの動き効果を遠ざけることを学習するモデルを容易にする。
論文参考訳（メタデータ） (2025-01-02T18:59:45Z)
HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos [9.513100627302755]
データセットには833分(3.7M+画像)以上の記録があり、19人の被験者が33の多様な剛体物体と相互作用している。記録には、エゴセントリックなマルチビューRGB/モノクロ画像、目視信号、シーンポイント雲、カメラ、手、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれている。実験では,3次元ハンドトラッキング,モデルベース6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
論文参考訳（メタデータ） (2024-11-28T14:09:42Z)
PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis [120.4361056355332]
この論文では、3つのCAMeraS、すなわちPIV3CAMSからPaired Image and Videoのデータを紹介している。 PIV3CAMSデータセットは8385対の画像と82対のビデオで構成されている。本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
論文参考訳（メタデータ） (2024-07-26T12:18:29Z)
HUP-3D: A 3D multi-view synthetic dataset for assisted-egocentric hand-ultrasound pose estimation [11.876066932162873]
HUP-3Dは手動超音波プローブポーズ推定のための3次元マルチビュー合成データセットである。私たちのデータセットは31万以上の動きで構成されています。我々のアプローチには、画像レンダリングの概念、様々な手や腕のテクスチャによる多様性の向上が含まれる。
論文参考訳（メタデータ） (2024-07-12T12:25:42Z)
HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction [16.363878619678367]
ビデオ中の手や物体の3D再構成とポーズ追跡に使用できるHO-Capという新しいデータセットを紹介した。そこで本研究では,手や物体の形状やポーズのアノテーションを半自動で取得する手法を提案する。我々のデータキャプチャのセットアップとアノテーションフレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、それらのポーズをビデオで追跡するために使用することができる。
論文参考訳（メタデータ） (2024-06-10T23:25:19Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Learning to Deblur and Rotate Motion-Blurred Faces [43.673660541417995]
ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
論文参考訳（メタデータ） (2021-12-14T17:51:19Z)
4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文参考訳（メタデータ） (2021-09-02T16:35:00Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)
Self-Supervised Multi-View Synchronization Learning for 3D Pose Estimation [39.334995719523]
現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
論文参考訳（メタデータ） (2020-10-13T08:01:24Z)
MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文参考訳（メタデータ） (2020-10-02T18:27:34Z)
Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。 3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文参考訳（メタデータ） (2020-03-21T03:51:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。