論文の概要: VM-BHINet:Vision Mamba Bimanual Hand Interaction Network for 3D Interacting Hand Mesh Recovery From a Single RGB Image
- arxiv url: http://arxiv.org/abs/2504.14618v1
- Date: Sun, 20 Apr 2025 13:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:21:59.468967
- Title: VM-BHINet:Vision Mamba Bimanual Hand Interaction Network for 3D Interacting Hand Mesh Recovery From a Single RGB Image
- Title(参考訳): VM-BHINet:Vision Mamba Bimanual Hand Interaction Network for 3D Interacting Hand Mesh recovery from a Single RGB image (特集:情報ネットワーク)
- Authors: Han Bi, Ge Yu, Yu He, Wenzhuo Liu, Zijie Zheng,
- Abstract要約: Vision Mamba Bimanual Hand Interaction Network (VM-BHINet)は、状態空間モデル(SSM)を手再構成に導入し、インタラクションモデリングを強化する。
コアコンポーネントであるVision Mamba Interaction Feature extract Block (VM-IFEBlock)は、SSMとローカルおよびグローバルな機能操作を組み合わせたものだ。
InterHand2.6Mデータセットの実験では、VM-BHINetは、結合位置の平均値(MPJPE)と頂点位置の平均値(MPVPE)を2-3%削減している。
- 参考スコア(独自算出の注目度): 13.009696075460521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding bimanual hand interactions is essential for realistic 3D pose and shape reconstruction. However, existing methods struggle with occlusions, ambiguous appearances, and computational inefficiencies. To address these challenges, we propose Vision Mamba Bimanual Hand Interaction Network (VM-BHINet), introducing state space models (SSMs) into hand reconstruction to enhance interaction modeling while improving computational efficiency. The core component, Vision Mamba Interaction Feature Extraction Block (VM-IFEBlock), combines SSMs with local and global feature operations, enabling deep understanding of hand interactions. Experiments on the InterHand2.6M dataset show that VM-BHINet reduces Mean per-joint position error (MPJPE) and Mean per-vertex position error (MPVPE) by 2-3%, significantly surpassing state-of-the-art methods.
- Abstract(参考訳): 現実的な3次元ポーズと形状再構成には,両手インタラクションの理解が不可欠である。
しかし、既存の手法はオクルージョン、曖昧な外観、計算の非効率さに悩まされている。
これらの課題に対処するため,視覚マンババイマニュアルハンドインタラクションネットワーク (VM-BHINet) を提案する。
コアコンポーネントであるVision Mamba Interaction Feature extract Block (VM-IFEBlock)は、SSMをローカルおよびグローバルな機能操作と組み合わせ、手動インタラクションの深い理解を可能にする。
InterHand2.6Mデータセットの実験では、VM-BHINetがMean per-joint position error (MPJPE)とMean per-vertex position error (MPVPE)を2-3%削減し、最先端の手法を大幅に上回った。
関連論文リスト
- Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - 3D Hand Mesh Recovery from Monocular RGB in Camera Space [3.0453197258042213]
本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。
暗黙的な学習手法を2次元ヒートマップに適用し、異なるサブタスク間の2次元キューの互換性を向上させる。
提案モデルは最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2024-05-12T05:36:37Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - 3D Hand Reconstruction via Aggregating Intra and Inter Graphs Guided by
Prior Knowledge for Hand-Object Interaction Scenario [8.364378460776832]
モデルベースおよびモデルフリーアプローチの利点を生かした3次元ハンドリコンストラクションネットワークを提案する。
まず,2次元関節から直接のMANOポーズパラメータ回帰モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-04T05:11:26Z) - Decoupled Iterative Refinement Framework for Interacting Hands
Reconstruction from a Single RGB Image [30.24438569170251]
画素アライメント・ハンド再構成を実現するために,分離された反復的精細化フレームワークを提案する。
提案手法は、InterHand2.6Mデータセットにおいて、既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-02-05T15:46:57Z) - LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction [2.2481284426718533]
本稿では,LWA-HAND(Lightlight attention hand)という手法を提案し,単一のRGB画像から低フロップで手を再構築する。
結果として得られたモデルは、InterHand2.6Mベンチマークで、最先端のモデルと比較して同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-21T06:25:56Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。