論文の概要: DF-Mamba: Deformable State Space Modeling for 3D Hand Pose Estimation in Interactions
- arxiv url: http://arxiv.org/abs/2512.02727v1
- Date: Tue, 02 Dec 2025 13:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.880903
- Title: DF-Mamba: Deformable State Space Modeling for 3D Hand Pose Estimation in Interactions
- Title(参考訳): DF-Mamba:インタラクションにおける3次元手の位置推定のための変形可能な状態空間モデリング
- Authors: Yifan Zhou, Takehiko Ohkawa, Guwenxiao Zhou, Kanoko Goto, Takumi Hirose, Yusuke Sekikawa, Nakamasa Inoue,
- Abstract要約: Deformable Mambaは、Mambaの選択的状態モデリングと提案された変形可能な状態スキャンを通じて、標準的な畳み込みを超えてグローバルなコンテキストキューをキャプチャするように設計されている。
実験では, 片手・片手シナリオ, 片手・片手インタラクション, RGB, 深度に基づく推定を含む5つの分散データセットについて, 広範囲な評価を行った。
DF-Mambaは、VMambaやSpatial-Mambaを含む最新のイメージバックボーンをすべてのデータセットで上回り、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 30.46272629126919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling daily hand interactions often struggles with severe occlusions, such as when two hands overlap, which highlights the need for robust feature learning in 3D hand pose estimation (HPE). To handle such occluded hand images, it is vital to effectively learn the relationship between local image features (e.g., for occluded joints) and global context (e.g., cues from inter-joints, inter-hands, or the scene). However, most current 3D HPE methods still rely on ResNet for feature extraction, and such CNN's inductive bias may not be optimal for 3D HPE due to its limited capability to model the global context. To address this limitation, we propose an effective and efficient framework for visual feature extraction in 3D HPE using recent state space modeling (i.e., Mamba), dubbed Deformable Mamba (DF-Mamba). DF-Mamba is designed to capture global context cues beyond standard convolution through Mamba's selective state modeling and the proposed deformable state scanning. Specifically, for local features after convolution, our deformable scanning aggregates these features within an image while selectively preserving useful cues that represent the global context. This approach significantly improves the accuracy of structured 3D HPE, with comparable inference speed to ResNet-50. Our experiments involve extensive evaluations on five divergent datasets including single-hand and two-hand scenarios, hand-only and hand-object interactions, as well as RGB and depth-based estimation. DF-Mamba outperforms the latest image backbones, including VMamba and Spatial-Mamba, on all datasets and achieves state-of-the-art performance.
- Abstract(参考訳): 日常的な手動インタラクションのモデル化は、両手が重なり合う場合など、深刻な咬合に苦しむことが多く、これは3次元手動ポーズ推定(HPE)における堅牢な特徴学習の必要性を強調する。
このような閉塞手画像を扱うためには、局所像特徴(例えば、閉塞手)とグローバルコンテキスト(例えば、関節間、関節間、シーンからの手がかり)との関係を効果的に学習することが不可欠である。
しかし、現在の3D HPE法のほとんどはResNetを特徴抽出に頼っているため、CNNの誘導バイアスはグローバルコンテキストをモデル化する能力に制限があるため、3D HPEには最適ではないかもしれない。
この制限に対処するため,最近の状態空間モデリング (Mamba) を用いて3次元HPEの視覚特徴抽出を効果的かつ効率的に行う手法を提案し,Deformable Mamba (DF-Mamba) と呼ぶ。
DF-Mambaは、Mambaの選択的状態モデリングと提案された変形可能な状態スキャンを通じて、標準的な畳み込みを超えてグローバルなコンテキストキューをキャプチャするように設計されている。
具体的には、畳み込み後の局所的な特徴について、変形可能なスキャンは、これらの特徴を画像内に集約し、グローバルな文脈を表す有用な手がかりを選択的に保存する。
このアプローチは、ResNet-50に匹敵する推論速度で、構造化された3D HPEの精度を大幅に向上させる。
実験では, 片手・片手シナリオ, 片手・片手インタラクション, RGB, 深度に基づく推定を含む5つの分散データセットについて, 広範囲な評価を行った。
DF-Mambaは、VMambaやSpatial-Mambaを含む最新のイメージバックボーンをすべてのデータセットで上回り、最先端のパフォーマンスを達成する。
関連論文リスト
- One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation [32.45730375971019]
単一の参照画像から、任意の見えない物体の6Dポーズを推定することは、現実世界のインスタンスの長い尾で動くロボティクスにとって重要である。
2つの重要なコンポーネントを通じてこれらの課題に取り組むパイプラインであるOnePoseViaGenを提案する。
実世界操作における本手法の有効性を検証し, 実物操作による頑健な器用握力の実証を行った。
論文 参考訳(メタデータ) (2025-09-09T17:59:02Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - HGMamba: Enhancing 3D Human Pose Estimation with a HyperGCN-Mamba Network [0.0]
3D人間のポーズは、推定と地道な2D人間のポーズデータをトレーニングに活用する有望な研究分野である。
既存のアプローチは、推定された2Dポーズの性能を高めることを目的としているが、地上の2Dポーズデータに適用した場合に苦労する。
本稿では2つの並列ストリームを介して入力データを処理するHyper-GCNとShuffle Mambaブロックを提案する。
論文 参考訳(メタデータ) (2025-04-09T07:28:19Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - HandFoldingNet: A 3D Hand Pose Estimation Network Using
Multiscale-Feature Guided Folding of a 2D Hand Skeleton [4.1954750695245835]
本稿では,高精度かつ効率的なポーズ推定器であるHandFoldingNetを提案する。
提案モデルでは, 折り畳み型デコーダを用いて, 与えられた2次元手骨を対応する関節座標に折り畳む。
実験結果から,提案モデルが既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-12T05:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。