論文の概要: Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation
- arxiv url: http://arxiv.org/abs/2107.00434v1
- Date: Thu, 1 Jul 2021 13:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:44:34.917563
- Title: Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation
- Title(参考訳): 画素単位の確率的部分分割による強相互作用手の不明瞭化の学習
- Authors: Zicong Fan, Adrian Spurr, Muhammed Kocabas, Siyu Tang, Michael J.
Black, Otmar Hilliges
- Abstract要約: 自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 84.28064034301445
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In natural conversation and interaction, our hands often overlap or are in
contact with each other. Due to the homogeneous appearance of hands, this makes
estimating the 3D pose of interacting hands from images difficult. In this
paper we demonstrate that self-similarity, and the resulting ambiguities in
assigning pixel observations to the respective hands and their parts, is a
major cause of the final 3D pose error. Motivated by this insight, we propose
DIGIT, a novel method for estimating the 3D poses of two interacting hands from
a single monocular image. The method consists of two interwoven branches that
process the input imagery into a per-pixel semantic part segmentation mask and
a visual feature volume. In contrast to prior work, we do not decouple the
segmentation from the pose estimation stage, but rather leverage the per-pixel
probabilities directly in the downstream pose estimation task. To do so, the
part probabilities are merged with the visual features and processed via
fully-convolutional layers. We experimentally show that the proposed approach
achieves new state-of-the-art performance on the InterHand2.6M dataset for both
single and interacting hands across all metrics. We provide detailed ablation
studies to demonstrate the efficacy of our method and to provide insights into
how the modelling of pixel ownership affects single and interacting hand pose
estimation. Our code will be released for research purposes.
- Abstract(参考訳): 自然な会話や対話において、私たちの手はしばしば重なり合うか、互いに接触する。
手の均質な外観のため,画像から手の動きを3次元的に推定することは困難である。
本稿では,各手とその部品に画素観測を割り当てる際の自己相似性,その結果生じるあいまいさが,最終3次元ポーズ誤差の主な原因であることを示す。
そこで本研究では,1つの単眼像から2つの手の3次元ポーズを推定する新しい手法であるdigitを提案する。
この方法は、入力画像をピクセル毎の意味部分セグメンテーションマスクと視覚特徴量に加工する2つの織り込み枝からなる。
従来の作業とは対照的に、ポーズ推定段階からセグメンテーションを分離するのではなく、下流のポーズ推定タスクで直接ピクセル当たりの確率を活用する。
そのため、部分確率は視覚特徴とマージされ、完全畳み込み層を介して処理される。
提案手法は, シングルハンドとインタラクションハンドの両方を指標とするInterHand2.6Mデータセット上で, 新たな最先端性能を実現することを実験的に示す。
本手法の有効性を実証するために,詳細なアブレーション研究を行い,画素所有のモデル化が手の位置推定にどのように影響するかを考察する。
私たちのコードは研究目的でリリースされます。
関連論文リスト
- SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition [5.359837526794863]
ハンドポーズは、エゴセントリックな視点における行動認識のための重要な情報である。
擬似深度画像のみを用いてRGBフレームに基づく自家中心の3次元ポーズ推定を改善することを提案する。
論文 参考訳(メタデータ) (2024-08-19T14:30:29Z) - HandDGP: Camera-Space Hand Mesh Prediction with Differentiable Global Positioning [1.4515751892711464]
本稿では,2D-3D対応問題に対処するエンドツーエンドソリューションを提案する。
このソリューションは、新しい差別化可能なグローバル位置決めモジュールを通じて、カメラ空間出力からネットワークの他の部分へのバックプロパゲーションを可能にする。
いくつかのベースラインと最先端のアプローチに対する評価において、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-07-22T17:59:01Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。