論文の概要: Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba
- arxiv url: http://arxiv.org/abs/2407.09646v1
- Date: Fri, 12 Jul 2024 19:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:28:05.277365
- Title: Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba
- Title(参考訳): ハンバ:グラフ誘導バイスキャンマンバを用いたシングルビュー3Dハンドコンストラクション
- Authors: Haoye Dong, Aviral Chharia, Wenbo Gou, Francisco Vicente Carrasco, Fernando De la Torre,
- Abstract要約: 1枚のRGB画像からの3Dハンド再構成は、関節運動、自己閉塞、物体との相互作用により困難である。
既存のSOTA法では、3Dハンドポーズと形状を学ぶためにアテンションベースのトランスフォーマーを採用している。
本稿では,グラフ学習と状態空間モデリングを橋渡しするHambaというグラフ誘導型Mambaフレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.45301469664908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Hand reconstruction from a single RGB image is challenging due to the articulated motion, self-occlusion, and interaction with objects. Existing SOTA methods employ attention-based transformers to learn the 3D hand pose and shape, but they fail to achieve robust and accurate performance due to insufficient modeling of joint spatial relations. To address this problem, we propose a novel graph-guided Mamba framework, named Hamba, which bridges graph learning and state space modeling. Our core idea is to reformulate Mamba's scanning into graph-guided bidirectional scanning for 3D reconstruction using a few effective tokens. This enables us to learn the joint relations and spatial sequences for enhancing the reconstruction performance. Specifically, we design a novel Graph-guided State Space (GSS) block that learns the graph-structured relations and spatial sequences of joints and uses 88.5% fewer tokens than attention-based methods. Additionally, we integrate the state space features and the global features using a fusion module. By utilizing the GSS block and the fusion module, Hamba effectively leverages the graph-guided state space modeling features and jointly considers global and local features to improve performance. Extensive experiments on several benchmarks and in-the-wild tests demonstrate that Hamba significantly outperforms existing SOTAs, achieving the PA-MPVPE of 5.3mm and F@15mm of 0.992 on FreiHAND. Hamba is currently Rank 1 in two challenging competition leaderboards on 3D hand reconstruction. The code will be available upon acceptance. [Website](https://humansensinglab.github.io/Hamba/).
- Abstract(参考訳): 1枚のRGB画像からの3Dハンド再構成は、関節運動、自己閉塞、物体との相互作用により困難である。
既存のSOTA法では3次元ハンドポーズと形状を学習するためにアテンションベースのトランスフォーマーが用いられているが, 接合空間関係のモデリングが不十分なため, 頑健で正確な性能が得られなかった。
この問題に対処するために,グラフ学習と状態空間モデリングを橋渡しするHambaというグラフ誘導型Mambaフレームワークを提案する。
私たちの中核となる考え方は、マンバのスキャンをグラフ誘導の双方向走査に再構成し、いくつかの効果的なトークンを使って3D再構成することです。
これにより、再構成性能を向上させるために、結合関係と空間配列を学習することができる。
具体的には、グラフ構造関係と関節の空間配列を学習し、注意に基づく手法よりも88.5%少ないトークンを使用する新しいグラフ誘導状態空間(GSS)ブロックを設計する。
さらに、我々は、フュージョンモジュールを使用して状態空間機能とグローバル機能を統合する。
GSSブロックと融合モジュールを利用することで、Hambaはグラフ誘導状態空間モデリング機能を効果的に活用し、グローバルとローカルの機能を共同で検討してパフォーマンスを向上させる。
いくつかのベンチマークや実験において、ハンバは既存のSOTAよりも大幅に優れており、FreiHANDでは5.3mmとF@15mmのPA-MPVPEを達成している。
ハンバは現在、3Dハンドリコンストラクションで2つの挑戦的リーダーボードで1位にランクインしている。
コードは受理後利用可能になる。
[Website] (https://humansensinglab.github.io/Hamba/)
関連論文リスト
- Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network [40.123744788977525]
我々は,Hybrid Mamba-GCN(Pose Magic)という,注目のない新しいハイブリッドアーキテクチャを提案する。
MambaとGCNの表現を適応的に融合させることで、Pose Magicは基礎となる3D構造を学ぶ上で優れた能力を示している。
実験によると、Pose Magicは74.1%のFLOPを節約しながら新しいSOTA結果を達成する。
論文 参考訳(メタデータ) (2024-08-06T03:15:18Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Interacting Attention Graph for Single Image Two-Hand Reconstruction [32.342152070402236]
IntagHand(Interacting Attention Graph Hand)は、1つのRGB画像から2つのインタラクションハンドを再構築する最初のグラフ畳み込みベースのネットワークである。
提案手法は,InterHand2.6Mベンチマークにおいて,既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-17T14:51:11Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。