論文の概要: Rethinking Graph Convolution for 2D-to-3D Hand Pose Lifting
- arxiv url: http://arxiv.org/abs/2605.13604v1
- Date: Wed, 13 May 2026 14:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.110635
- Title: Rethinking Graph Convolution for 2D-to-3D Hand Pose Lifting
- Title(参考訳): 2D-to-3Dハンドポケットリフティングのためのグラフ畳み込み再考
- Authors: Chanyoung Kim, Donghyun Kim, Dong-Hyun Sim, Seong Jae Hwang, Youngjoong Kwon,
- Abstract要約: グラフ畳み込みネットワーク(GCN)は3次元ポーズ推定に広く利用されている。
ハンドトポロジを2次元から3次元のリフトに組み込む最も効果的な方法かどうかを考察する。
標準的なマルチヘッド自己アテンションはGCNベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 13.892833449431862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks (GCNs) are widely used for 3D hand pose estimation, where the hand skeleton is encoded as a fixed adjacency graph. We revisit whether this is the most effective way to incorporate hand topology in 2D-to-3D lifting. In this paper, we perform controlled, parameter-matched ablations on the FPHA benchmark and show that standard multi-head self-attention consistently outperforms GCN baselines. Even when the GCN is strengthened with multi-hop adjacency and matched parameter count, self-attention reduces MPJPE from 12.36 mm to 10.09 mm. A skeleton-constrained graph attention network recovers most of this gap, indicating that input-dependent aggregation is a major source of improvement, while fully connected attention yields additional gains. We further show that hand topology is most effective when introduced as a soft structural prior through graph-distance positional encoding, rather than as a hard adjacency constraint. These results suggest that, for hand pose lifting, adaptive spatial attention is a more effective inductive bias than fixed graph convolution.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は3次元手振り推定に広く用いられている。
ハンドトポロジを2次元から3次元のリフトに組み込む最も効果的な方法かどうかを考察する。
本稿では、FPHAベンチマーク上でパラメータマッチングによる制御処理を行い、標準マルチヘッド自己アテンションがGCNベースラインを一貫して上回ることを示す。
GCNが多重ホップ隣接と整合パラメータ数で強化されたとしても、自己注意はMPJPEを12.36mmから10.09mmに減少させる。
骨格に拘束されたグラフアテンションネットワークは、このギャップの大部分を回復し、入力依存のアグリゲーションが改善の主要な原因であることを示している。
さらに, ハンドトポロジは, 硬度隣接制約ではなく, グラフ距離位置符号化によりソフト構造として導入される場合に最も有効であることを示す。
これらの結果から,手動浮揚においては,適応的空間的注意は固定グラフの畳み込みよりも効果的な帰納バイアスであることが示唆された。
関連論文リスト
- 3D Human Pose Estimation via Spatial Graph Order Attention and Temporal Body Aware Transformer [5.303583360581161]
本稿では,GCNのグラフモデリング機能を利用して,各スケルトンを異なる順序の複数のグラフで表現する手法を提案する。
提案した時間的ボディアウェア変換器を用いてシーケンスの空間的特徴を処理する。
Human3.6m, MPIINF-3DHP, HumanEva-Iデータセットを用いた実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-05-02T04:58:04Z) - Occlusion Resilient 3D Human Pose Estimation [52.49366182230432]
排除は、シングルカメラビデオシーケンスからの3Dボディポーズ推定における重要な課題の1つとして残されている。
単一カメラシーケンスからポーズを推測する最先端技術と比較して,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-16T19:29:43Z) - Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action
Recognition through Redefined Skeletal Topology Awareness [24.83836008577395]
グラフ畳み込みネットワーク(GCN)は長い間、骨格に基づく行動認識の最先端を定義してきた。
彼らはモデルの重みとともに隣接行列を最適化する傾向がある。
このプロセスは、骨接続データの段階的な崩壊を引き起こし、マッピングしようとしたトポロジとは無関係なモデルで終わる。
本稿では,骨の接続性をグラフ距離のパワーを利用して符号化する革新的な経路を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:40:12Z) - Skeleton-Parted Graph Scattering Networks for 3D Human Motion Prediction [120.08257447708503]
体-関節関係をモデル化するグラフ畳み込みネットワークに基づく手法は,最近3次元骨格に基づく人間の動作予測において大きな可能性を示唆している。
骨格分割グラフ散乱ネットワーク(SPGSN)を提案する。
SPGSNは、Human3.6M、CMU Mocap、および3DPWデータセット上で、関節位置誤差(MPJPE)当たりの3D平均の13.8%、9.3%、および2.7%の差で最先端の手法を上回っている。
論文 参考訳(メタデータ) (2022-07-31T05:51:39Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - A hybrid classification-regression approach for 3D hand pose estimation
using graph convolutional networks [1.0152838128195467]
目的ごとの関係制約を学習する2段階のGCNベースのフレームワークを提案する。
第1フェーズは2D/3D空間を量子化し、その局所性に基づいて関節を2D/3Dブロックに分類する。
第2段階ではGCNベースのモジュールを使用し、隣り合う適応アルゴリズムを用いて関節関係を決定する。
論文 参考訳(メタデータ) (2021-05-23T10:09:10Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。