論文の概要: K-Order Graph-oriented Transformer with GraAttention for 3D Pose and
Shape Estimation
- arxiv url: http://arxiv.org/abs/2208.11328v1
- Date: Wed, 24 Aug 2022 06:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:46:52.813396
- Title: K-Order Graph-oriented Transformer with GraAttention for 3D Pose and
Shape Estimation
- Title(参考訳): 3次元ポーズと形状推定のためのグラフ指向変換器
- Authors: Weixi Zhao and Weiqiang Wang
- Abstract要約: KOG-Transformer というグラフ構造データに対する2次元から3次元のポーズ推定ネットワークを提案する。
また,GASE-Netという手動データのための3次元ポーズ・ツー・シェイプ推定ネットワークを提案する。
- 参考スコア(独自算出の注目度): 20.711789781518753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel attention-based 2D-to-3D pose estimation network for
graph-structured data, named KOG-Transformer, and a 3D pose-to-shape estimation
network for hand data, named GASE-Net. Previous 3D pose estimation methods have
focused on various modifications to the graph convolution kernel, such as
abandoning weight sharing or increasing the receptive field. Some of these
methods employ attention-based non-local modules as auxiliary modules. In order
to better model the relationship between nodes in graph-structured data and
fuse the information of different neighbor nodes in a differentiated way, we
make targeted modifications to the attention module and propose two modules
designed for graph-structured data, graph relative positional encoding
multi-head self-attention (GR-MSA) and K-order graph-oriented multi-head
self-attention (KOG-MSA). By stacking GR-MSA and KOG-MSA, we propose a novel
network KOG-Transformer for 2D-to-3D pose estimation. Furthermore, we propose a
network for shape estimation on hand data, called GraAttention shape estimation
network (GASE-Net), which takes a 3D pose as input and gradually models the
shape of the hand from sparse to dense. We have empirically shown the
superiority of KOG-Transformer through extensive experiments. Experimental
results show that KOG-Transformer significantly outperforms the previous
state-of-the-art methods on the benchmark dataset Human3.6M. We evaluate the
effect of GASE-Net on two public available hand datasets, ObMan and
InterHand2.6M. GASE-Net can predict the corresponding shape for input pose with
strong generalization ability.
- Abstract(参考訳): グラフ構造化データのための新しい2D-to-3Dポーズ推定ネットワーク KOG-Transformer と手動データのための3Dポーズ・ツー・シェイプ推定ネットワーク GASE-Net を提案する。
従来の3Dポーズ推定手法は、重み付けの放棄や受容場の増加など、グラフ畳み込みカーネルへの様々な変更に焦点を当ててきた。
これらの手法のいくつかは注意に基づく非局所加群を補助加群として採用している。
グラフ構造データのノード間の関係をよりよくモデル化し、異なる隣接ノードの情報を異なる方法で融合するために、注意モジュールをターゲットに修正し、グラフ構造データ用に設計された2つのモジュール、グラフ相対位置符号化マルチヘッドセルフアテンション(gr-msa)とk次グラフ指向マルチヘッドセルフアテンション(kog-msa)を提案する。
GR-MSAとKOG-MSAを積み重ねることで、2次元から3次元のポーズ推定のための新しいネットワーク KOG-Transformer を提案する。
さらに,3次元ポーズを入力とし,手首の形状を疎密から徐々にモデル化する,graattention shape estimation network(gase-net)と呼ばれる手指データの形状推定ネットワークを提案する。
広汎な実験により, KOG-Transformer の優位性を実証した。
実験の結果、KOG-Transformerは、ベンチマークデータセットHuman3.6Mにおいて、従来の最先端手法よりも大幅に優れていた。
GASE-NetがObManとInterHand2.6Mの2つの公開ハンドデータセットに与える影響を評価する。
GASE-Netは、強い一般化能力を持つ入力ポーズの対応する形状を予測することができる。
関連論文リスト
- Multiple View Geometry Transformers for 3D Human Pose Estimation [35.26756920323391]
多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。
本稿では,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。
論文 参考訳(メタデータ) (2023-11-18T06:32:40Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Skeleton-Parted Graph Scattering Networks for 3D Human Motion Prediction [120.08257447708503]
体-関節関係をモデル化するグラフ畳み込みネットワークに基づく手法は,最近3次元骨格に基づく人間の動作予測において大きな可能性を示唆している。
骨格分割グラフ散乱ネットワーク(SPGSN)を提案する。
SPGSNは、Human3.6M、CMU Mocap、および3DPWデータセット上で、関節位置誤差(MPJPE)当たりの3D平均の13.8%、9.3%、および2.7%の差で最先端の手法を上回っている。
論文 参考訳(メタデータ) (2022-07-31T05:51:39Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Mesh Graphormer [17.75480888764098]
グラフ畳み込み強化変換器であるMesh Graphormerを1枚の画像から3次元の人間のポーズとメッシュ再構成を行う。
論文 参考訳(メタデータ) (2021-04-01T06:16:36Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。