論文の概要: JGR-P2O: Joint Graph Reasoning based Pixel-to-Offset Prediction Network
for 3D Hand Pose Estimation from a Single Depth Image
- arxiv url: http://arxiv.org/abs/2007.04646v2
- Date: Fri, 10 Jul 2020 03:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 04:33:55.357603
- Title: JGR-P2O: Joint Graph Reasoning based Pixel-to-Offset Prediction Network
for 3D Hand Pose Estimation from a Single Depth Image
- Title(参考訳): jgr-p2o:単一深度画像からの3次元手ポーズ推定のための統合グラフ推論に基づく画素対オフ予測ネットワーク
- Authors: Linpu Fang, Xingyan Liu, Li Liu, Hang Xu, and Wenxiong Kang
- Abstract要約: 最先端の単一深度画像に基づく3次元手ポーズ推定法は、密集した予測に基づいている。
上記の問題に対処するために, 画素単位の予測に基づく新しい手法を提案する。
提案モデルは2次元完全畳み込みネットワークのバックボーンで実装され,約1.4Mのパラメータしか持たない。
- 参考スコア(独自算出の注目度): 28.753759115780515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art single depth image-based 3D hand pose estimation methods are
based on dense predictions, including voxel-to-voxel predictions,
point-to-point regression, and pixel-wise estimations. Despite the good
performance, those methods have a few issues in nature, such as the poor
trade-off between accuracy and efficiency, and plain feature representation
learning with local convolutions. In this paper, a novel pixel-wise
prediction-based method is proposed to address the above issues. The key ideas
are two-fold: a) explicitly modeling the dependencies among joints and the
relations between the pixels and the joints for better local feature
representation learning; b) unifying the dense pixel-wise offset predictions
and direct joint regression for end-to-end training. Specifically, we first
propose a graph convolutional network (GCN) based joint graph reasoning module
to model the complex dependencies among joints and augment the representation
capability of each pixel. Then we densely estimate all pixels' offsets to
joints in both image plane and depth space and calculate the joints' positions
by a weighted average over all pixels' predictions, totally discarding the
complex postprocessing operations. The proposed model is implemented with an
efficient 2D fully convolutional network (FCN) backbone and has only about 1.4M
parameters. Extensive experiments on multiple 3D hand pose estimation
benchmarks demonstrate that the proposed method achieves new state-of-the-art
accuracy while running very efficiently with around a speed of 110fps on a
single NVIDIA 1080Ti GPU.
- Abstract(参考訳): 最先端の単一深度画像に基づく3次元ハンドポーズ推定手法は、voxel-to-voxel予測、ポイント・ツー・ポイント回帰、ピクセルワイズ推定など、密集した予測に基づいている。
優れた性能にもかかわらず、これらの手法には、精度と効率のトレードオフが乏しいことや、局所的な畳み込みを伴う平易な特徴表現学習など、いくつかの問題がある。
本稿では,上記の問題に対処するために,画素方向予測に基づく新しい手法を提案する。
重要なアイデアは2つあります。
a) 局所的特徴表現学習を改善するため,関節間の依存関係及び画素と関節の関係を明示的にモデル化すること。
b) エンド・ツー・エンド訓練における高密度画素方向オフセット予測と直接回帰の統合
具体的には,まず,ジョイント間の複雑な依存関係をモデル化し,各画素の表現能力を高めるグラフ畳み込みネットワーク(gcn)ベースのジョイントグラフ推論モジュールを提案する。
次に,すべての画素のオフセットを画像平面と深度空間の両方の接合部に密に推定し,すべての画素の予測に対して重み付き平均で関節の位置を計算し,複雑な後処理操作を完全に破棄する。
提案モデルは,効率の良い2次元完全畳み込みネットワーク(fcn)バックボーンを用いて実装され,約1.4mのパラメータしか持たない。
複数の3Dハンドポーズ推定ベンチマークの大規模な実験により、提案手法は1つのNVIDIA 1080Ti GPU上で110fpsの速度で非常に効率的に動作しながら、新しい最先端の精度を実現する。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Improving 3D Pose Estimation for Sign Language [38.20064386142944]
この研究は、単一の画像における3次元人間のポーズ復元に対処する。
本稿では,フォワード・キネマティクス(FK)とニューラルネットワークを組み合わせた3次元ポーズの高速かつ有効な予測手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T13:05:10Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Contour Context: Abstract Structural Distribution for 3D LiDAR Loop
Detection and Metric Pose Estimation [31.968749056155467]
本稿では,高精度な3DoF距離ポーズ推定を用いた簡易かつ効果的かつ効率的なトポロジカルループ閉包検出パイプラインを提案する。
我々は,3次元LiDAR点から投影されるBEV像を構造層分布として解釈する。
検索キーは、層状KD木でインデックスされたデータベースの検索を高速化するように設計されている。
論文 参考訳(メタデータ) (2023-02-13T07:18:24Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - DFM: A Performance Baseline for Deep Feature Matching [10.014010310188821]
提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。
提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)で0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。
論文 参考訳(メタデータ) (2021-06-14T22:55:06Z) - A hybrid classification-regression approach for 3D hand pose estimation
using graph convolutional networks [1.0152838128195467]
目的ごとの関係制約を学習する2段階のGCNベースのフレームワークを提案する。
第1フェーズは2D/3D空間を量子化し、その局所性に基づいて関節を2D/3Dブロックに分類する。
第2段階ではGCNベースのモジュールを使用し、隣り合う適応アルゴリズムを用いて関節関係を決定する。
論文 参考訳(メタデータ) (2021-05-23T10:09:10Z) - I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human
Pose and Mesh Estimation from a Single RGB Image [79.040930290399]
I2L-MeshNetを提案する。
提案したI2L-MeshNetは、パラメータを直接回帰するのではなく、各メッシュ座標の1Dヒートマップ上のリセル当たりの確率を予測する。
我々のリセルベースの1Dヒートマップは入力画像の空間的関係を保存し、予測の不確かさをモデル化する。
論文 参考訳(メタデータ) (2020-08-09T12:13:31Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。