論文の概要: 4DHands: Reconstructing Interactive Hands in 4D with Transformers
- arxiv url: http://arxiv.org/abs/2405.20330v2
- Date: Fri, 31 May 2024 10:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 12:59:52.358639
- Title: 4DHands: Reconstructing Interactive Hands in 4D with Transformers
- Title(参考訳): 4DHands: 4Dのインタラクティブハンドをトランスフォーマーで再構築
- Authors: Dixuan Lin, Yuxiang Zhang, Mengcheng Li, Yebin Liu, Wei Jing, Qi Yan, Qianying Wang, Hongwen Zhang,
- Abstract要約: 4DHandsは,対話型ハンドメッシュとそのモノクラー入力からの相対移動を回復するための頑健なアプローチである。
我々は新しいトークン化と機能融合戦略を備えたトランスフォーマーベースのアーキテクチャを開発する。
提案手法の有効性を,いくつかのベンチマークデータセットで検証した。
- 参考スコア(独自算出の注目度): 35.983309206845036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce 4DHands, a robust approach to recovering interactive hand meshes and their relative movement from monocular inputs. Our approach addresses two major limitations of previous methods: lacking a unified solution for handling various hand image inputs and neglecting the positional relationship of two hands within images. To overcome these challenges, we develop a transformer-based architecture with novel tokenization and feature fusion strategies. Specifically, we propose a Relation-aware Two-Hand Tokenization (RAT) method to embed positional relation information into the hand tokens. In this way, our network can handle both single-hand and two-hand inputs and explicitly leverage relative hand positions, facilitating the reconstruction of intricate hand interactions in real-world scenarios. As such tokenization indicates the relative relationship of two hands, it also supports more effective feature fusion. To this end, we further develop a Spatio-temporal Interaction Reasoning (SIR) module to fuse hand tokens in 4D with attention and decode them into 3D hand meshes and relative temporal movements. The efficacy of our approach is validated on several benchmark datasets. The results on in-the-wild videos and real-world scenarios demonstrate the superior performances of our approach for interactive hand reconstruction. More video results can be found on the project page: https://4dhands.github.io.
- Abstract(参考訳): 本稿では,対話型ハンドメッシュの回復のための頑健なアプローチである4DHandsを紹介する。
本手法は,手動画像入力に対する統一解の欠如と,画像内の両手の位置関係の無視という,従来の手法の2つの大きな限界に対処する。
これらの課題を克服するために、新しいトークン化と機能融合戦略を備えたトランスフォーマーベースのアーキテクチャを開発する。
具体的には、手札に位置関係情報を埋め込むための関係認識型2手トークン化(RAT)手法を提案する。
このようにして、我々のネットワークは、片手と片手の両方の入力を処理し、相対的な手の位置を明示的に活用し、実世界のシナリオにおける複雑な手の動きの再構築を容易にする。
このようなトークン化は両手の相対関係を示すため、より効果的な特徴融合もサポートする。
この目的のために、我々はさらに時空間相互作用推論(SIR)モジュールを開発し、注意を払って4次元のトークンを融合し、それらを3次元の手メッシュと相対時間運動にデコードする。
提案手法の有効性を,いくつかのベンチマークデータセットで検証した。
In-the-wild video と real-world scenarios の結果は,対話型ハンドリコンストラクションにおける我々のアプローチの優れた性能を示している。
さらなるビデオ結果は、プロジェクトのページで見ることができる。
関連論文リスト
- ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oは,現実的,一方的あるいは一方的な物体相互作用を合成する新しい手法である。
タスクを把握段階とテキストベースのインタラクション段階に分解する。
把握段階では、モデルが手の動きのみを生成するのに対し、手と物の両方のポーズが合成される。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - HandDiffuse: Generative Controllers for Two-Hand Interactions via
Diffusion Models [48.56319454887096]
既存の手データセットは概ね短距離であり、手の自己閉塞と自己相似性のために相互作用は弱い。
データの不足を解消するために,強い双方向相互作用を持つ時間列からなる新しいデータセットであるHandDiffuse12.5Mを提案する。
論文 参考訳(メタデータ) (2023-12-08T07:07:13Z) - ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand
Reconstruction [30.073586754012645]
本稿では,ACR(Attention Collaboration-based Regressor)について述べる。
本手法は,種々の手指再建データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-10T14:19:02Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - Im2Hands: Learning Attentive Implicit Representation of Interacting
Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。
Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。
両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文 参考訳(メタデータ) (2023-02-28T06:38:25Z) - Decoupled Iterative Refinement Framework for Interacting Hands
Reconstruction from a Single RGB Image [30.24438569170251]
画素アライメント・ハンド再構成を実現するために,分離された反復的精細化フレームワークを提案する。
提案手法は、InterHand2.6Mデータセットにおいて、既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-02-05T15:46:57Z) - Collaborative Learning for Hand and Object Reconstruction with
Attention-guided Graph Convolution [49.10497573378427]
インタラクション中の手や物体のポーズと形状を推定すると、拡張現実や仮想現実を含む多くの応用が見つかる。
我々のアルゴリズムはオブジェクトモデルへの最適化であり、手動オブジェクトの相互作用を管理する物理規則を学習する。
広範に使用されている4つのベンチマークを用いて実験したところ、我々のフレームワークは3次元ポーズ推定における最先端の精度を超えて達成でき、また、密集した3次元手や物体の形状を復元できることがわかった。
論文 参考訳(メタデータ) (2022-04-27T17:00:54Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。