論文の概要: 4DHands: Reconstructing Interactive Hands in 4D with Transformers
- arxiv url: http://arxiv.org/abs/2405.20330v2
- Date: Fri, 31 May 2024 10:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 12:59:52.358639
- Title: 4DHands: Reconstructing Interactive Hands in 4D with Transformers
- Title(参考訳): 4DHands: 4Dのインタラクティブハンドをトランスフォーマーで再構築
- Authors: Dixuan Lin, Yuxiang Zhang, Mengcheng Li, Yebin Liu, Wei Jing, Qi Yan, Qianying Wang, Hongwen Zhang,
- Abstract要約: 4DHandsは,対話型ハンドメッシュとそのモノクラー入力からの相対移動を回復するための頑健なアプローチである。
我々は新しいトークン化と機能融合戦略を備えたトランスフォーマーベースのアーキテクチャを開発する。
提案手法の有効性を,いくつかのベンチマークデータセットで検証した。
- 参考スコア(独自算出の注目度): 35.983309206845036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce 4DHands, a robust approach to recovering interactive hand meshes and their relative movement from monocular inputs. Our approach addresses two major limitations of previous methods: lacking a unified solution for handling various hand image inputs and neglecting the positional relationship of two hands within images. To overcome these challenges, we develop a transformer-based architecture with novel tokenization and feature fusion strategies. Specifically, we propose a Relation-aware Two-Hand Tokenization (RAT) method to embed positional relation information into the hand tokens. In this way, our network can handle both single-hand and two-hand inputs and explicitly leverage relative hand positions, facilitating the reconstruction of intricate hand interactions in real-world scenarios. As such tokenization indicates the relative relationship of two hands, it also supports more effective feature fusion. To this end, we further develop a Spatio-temporal Interaction Reasoning (SIR) module to fuse hand tokens in 4D with attention and decode them into 3D hand meshes and relative temporal movements. The efficacy of our approach is validated on several benchmark datasets. The results on in-the-wild videos and real-world scenarios demonstrate the superior performances of our approach for interactive hand reconstruction. More video results can be found on the project page: https://4dhands.github.io.
- Abstract(参考訳): 本稿では,対話型ハンドメッシュの回復のための頑健なアプローチである4DHandsを紹介する。
本手法は,手動画像入力に対する統一解の欠如と,画像内の両手の位置関係の無視という,従来の手法の2つの大きな限界に対処する。
これらの課題を克服するために、新しいトークン化と機能融合戦略を備えたトランスフォーマーベースのアーキテクチャを開発する。
具体的には、手札に位置関係情報を埋め込むための関係認識型2手トークン化(RAT)手法を提案する。
このようにして、我々のネットワークは、片手と片手の両方の入力を処理し、相対的な手の位置を明示的に活用し、実世界のシナリオにおける複雑な手の動きの再構築を容易にする。
このようなトークン化は両手の相対関係を示すため、より効果的な特徴融合もサポートする。
この目的のために、我々はさらに時空間相互作用推論(SIR)モジュールを開発し、注意を払って4次元のトークンを融合し、それらを3次元の手メッシュと相対時間運動にデコードする。
提案手法の有効性を,いくつかのベンチマークデータセットで検証した。
In-the-wild video と real-world scenarios の結果は,対話型ハンドリコンストラクションにおける我々のアプローチの優れた性能を示している。
さらなるビデオ結果は、プロジェクトのページで見ることができる。
関連論文リスト
- HandDiffuse: Generative Controllers for Two-Hand Interactions via
Diffusion Models [48.56319454887096]
既存の手データセットは概ね短距離であり、手の自己閉塞と自己相似性のために相互作用は弱い。
データの不足を解消するために,強い双方向相互作用を持つ時間列からなる新しいデータセットであるHandDiffuse12.5Mを提案する。
論文 参考訳(メタデータ) (2023-12-08T07:07:13Z) - Novel-view Synthesis and Pose Estimation for Hand-Object Interaction
from Sparse Views [41.50710846018882]
スパースビューから手動物体間相互作用を推定するニューラルレンダリングとポーズ推定システムを提案する。
まず,手や物体の形状や外観を,神経表現と別々に学習する。
オンライン段階では、動的手-物体相互作用を理解するためのレンダリングベースのジョイントモデルフィッティングフレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-22T05:17:41Z) - ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand
Reconstruction [30.073586754012645]
本稿では,ACR(Attention Collaboration-based Regressor)について述べる。
本手法は,種々の手指再建データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-10T14:19:02Z) - Im2Hands: Learning Attentive Implicit Representation of Interacting
Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。
Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。
両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文 参考訳(メタデータ) (2023-02-28T06:38:25Z) - Decoupled Iterative Refinement Framework for Interacting Hands
Reconstruction from a Single RGB Image [30.24438569170251]
画素アライメント・ハンド再構成を実現するために,分離された反復的精細化フレームワークを提案する。
提案手法は、InterHand2.6Mデータセットにおいて、既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-02-05T15:46:57Z) - Hand-Object Interaction Reasoning [33.612083150296364]
両手インタラクションのモデル化は,エゴ符号化ビデオにおける動作認識に重要であることを示す。
ビデオ中の手と物体の時間的関係をモデル化するためのインタラクション推論ネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-13T11:53:12Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。