論文の概要: Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2303.04991v1
- Date: Thu, 9 Mar 2023 02:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 16:21:14.382798
- Title: Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation
- Title(参考訳): デフォーマ:ロバストハンドポース推定のためのダイナミックフュージョン変換器
- Authors: Qichen Fu, Xingyu Liu, Ran Xu, Juan Carlos Niebles, Kris M. Kitani
- Abstract要約: 既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
- 参考スコア(独自算出の注目度): 50.120413316269136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately estimating 3D hand pose is crucial for understanding how humans
interact with the world. Despite remarkable progress, existing methods often
struggle to generate plausible hand poses when the hand is heavily occluded or
blurred. In videos, the movements of the hand allow us to observe various parts
of the hand that may be occluded or blurred in a single frame. To adaptively
leverage the visual clue before and after the occlusion or blurring for robust
hand pose estimation, we propose the Deformer: a framework that implicitly
reasons about the relationship between hand parts within the same image
(spatial dimension) and different timesteps (temporal dimension). We show that
a naive application of the transformer self-attention mechanism is not
sufficient because motion blur or occlusions in certain frames can lead to
heavily distorted hand features and generate imprecise keys and queries. To
address this challenge, we incorporate a Dynamic Fusion Module into Deformer,
which predicts the deformation of the hand and warps the hand mesh predictions
from nearby frames to explicitly support the current frame estimation.
Furthermore, we have observed that errors are unevenly distributed across
different hand parts, with vertices around fingertips having disproportionately
higher errors than those around the palm. We mitigate this issue by introducing
a new loss function called maxMSE that automatically adjusts the weight of
every vertex to focus the model on critical hand parts. Extensive experiments
show that our method significantly outperforms state-of-the-art methods by 10%,
and is more robust to occlusions (over 14%).
- Abstract(参考訳): 正確に3Dのポーズを推定することは、人間が世界とどのように相互作用するかを理解するのに不可欠だ。
目覚ましい進歩にもかかわらず、既存の方法では、手のこもりが強かったり、ぼやけたりする際に、手のポーズをよく作ろうとする。
ビデオでは、手の動きによって、手の各部分が1つのフレームでぼやけているか、ぼやけているのを観察できる。
強靭な手ポーズ推定の前後の視覚的手がかりを適応的に活用するために,同じ画像内の手の部分(空間次元)と異なる時間ステップ(時間次元)の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
また,特定のフレームにおける動きのぼかしやオクルージョンが手の特徴をゆがめ,不正確なキーやクエリを生成する可能性があるため,トランスフォーマ自着機構のナイーブな適用では不十分であることを示す。
この課題に対処するために,動的融合モジュールをデフォーマに組み込み,手の変形を予測し,近傍のフレームからハンドメッシュ予測を逸脱し,現在のフレーム推定を明示的に支持する。
さらに,指先周辺の頂点は手のひら周辺のものよりも不均等に高い誤差を呈し,各部位に誤差が均一に分散していることが観察された。
我々は、各頂点の重みを自動的に調整し、重要な手の部分に集中するmaxMSEと呼ばれる新しい損失関数を導入することで、この問題を軽減する。
実験の結果,本手法は最先端の手法を10%以上上回り,閉塞性(14%以上)が高いことがわかった。
関連論文リスト
- HandRefiner: Refining Malformed Hands in Generated Images by
Diffusion-based Conditional Inpainting [78.2666045998905]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object
Reconstruction [77.29252746728388]
単一のRGBイメージから手持ちのオブジェクトを、既知の3Dオブジェクトテンプレート、カテゴリ事前、あるいは深さ情報なしで再構築することは、コンピュータビジョンにおいて不可欠だが困難な問題である。
単眼ハンドヘルドオブジェクト再構成(HACD)のためのハンド・アウェア拡散条件を提案し,2つの側面のハンド・オブジェクト間相互作用をモデル化した。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。