論文の概要: Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2303.04991v1
- Date: Thu, 9 Mar 2023 02:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 16:21:14.382798
- Title: Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation
- Title(参考訳): デフォーマ:ロバストハンドポース推定のためのダイナミックフュージョン変換器
- Authors: Qichen Fu, Xingyu Liu, Ran Xu, Juan Carlos Niebles, Kris M. Kitani
- Abstract要約: 既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
- 参考スコア(独自算出の注目度): 50.120413316269136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately estimating 3D hand pose is crucial for understanding how humans
interact with the world. Despite remarkable progress, existing methods often
struggle to generate plausible hand poses when the hand is heavily occluded or
blurred. In videos, the movements of the hand allow us to observe various parts
of the hand that may be occluded or blurred in a single frame. To adaptively
leverage the visual clue before and after the occlusion or blurring for robust
hand pose estimation, we propose the Deformer: a framework that implicitly
reasons about the relationship between hand parts within the same image
(spatial dimension) and different timesteps (temporal dimension). We show that
a naive application of the transformer self-attention mechanism is not
sufficient because motion blur or occlusions in certain frames can lead to
heavily distorted hand features and generate imprecise keys and queries. To
address this challenge, we incorporate a Dynamic Fusion Module into Deformer,
which predicts the deformation of the hand and warps the hand mesh predictions
from nearby frames to explicitly support the current frame estimation.
Furthermore, we have observed that errors are unevenly distributed across
different hand parts, with vertices around fingertips having disproportionately
higher errors than those around the palm. We mitigate this issue by introducing
a new loss function called maxMSE that automatically adjusts the weight of
every vertex to focus the model on critical hand parts. Extensive experiments
show that our method significantly outperforms state-of-the-art methods by 10%,
and is more robust to occlusions (over 14%).
- Abstract(参考訳): 正確に3Dのポーズを推定することは、人間が世界とどのように相互作用するかを理解するのに不可欠だ。
目覚ましい進歩にもかかわらず、既存の方法では、手のこもりが強かったり、ぼやけたりする際に、手のポーズをよく作ろうとする。
ビデオでは、手の動きによって、手の各部分が1つのフレームでぼやけているか、ぼやけているのを観察できる。
強靭な手ポーズ推定の前後の視覚的手がかりを適応的に活用するために,同じ画像内の手の部分(空間次元)と異なる時間ステップ(時間次元)の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
また,特定のフレームにおける動きのぼかしやオクルージョンが手の特徴をゆがめ,不正確なキーやクエリを生成する可能性があるため,トランスフォーマ自着機構のナイーブな適用では不十分であることを示す。
この課題に対処するために,動的融合モジュールをデフォーマに組み込み,手の変形を予測し,近傍のフレームからハンドメッシュ予測を逸脱し,現在のフレーム推定を明示的に支持する。
さらに,指先周辺の頂点は手のひら周辺のものよりも不均等に高い誤差を呈し,各部位に誤差が均一に分散していることが観察された。
我々は、各頂点の重みを自動的に調整し、重要な手の部分に集中するmaxMSEと呼ばれる新しい損失関数を導入することで、この問題を軽減する。
実験の結果,本手法は最先端の手法を10%以上上回り,閉塞性(14%以上)が高いことがわかった。
関連論文リスト
- Two Hands Are Better Than One: Resolving Hand to Hand Intersections via Occupancy Networks [33.9893684177763]
自己閉塞と指の関節は推定に重大な問題を引き起こす。
我々は、手の体積を連続多様体として表す占有ネットワークを利用する。
我々は,手動交差点の可能性を最小限に抑えるために,交差点損失関数を設計する。
論文 参考訳(メタデータ) (2024-04-08T11:32:26Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - On the Utility of 3D Hand Poses for Action Recognition [36.64538554919222]
HandFormerは、手動オブジェクトの相互作用を効率的にモデル化する新しいマルチモーダルトランスである。
我々は手指のモデリングを分類し,その短期的軌跡によって各関節を表現した。
我々は,アセンブラ101およびH2O上での最先端性能を新たに達成し,エゴセントリックな動作認識を大幅に改善した。
論文 参考訳(メタデータ) (2024-03-14T18:52:34Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。