論文の概要: 3D Human Pose Lifting with Grid Convolution
- arxiv url: http://arxiv.org/abs/2302.08760v1
- Date: Fri, 17 Feb 2023 08:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:20:14.507882
- Title: 3D Human Pose Lifting with Grid Convolution
- Title(参考訳): 格子畳み込みを持ち上げる3次元人間のポーズ
- Authors: Yangyuxuan Kang, Yuyang Liu, Anbang Yao, Shandong Wang, Enhua Wu
- Abstract要約: 本稿では,画像空間における正規畳み込み操作の知恵を模倣したグリッド畳み込み(GridConv)を提案する。
我々の完全畳み込みグリッドリフトネットワークは、最先端の手法よりも顕著なマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 20.60797374692489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing lifting networks for regressing 3D human poses from 2D single-view
poses are typically constructed with linear layers based on graph-structured
representation learning. In sharp contrast to them, this paper presents Grid
Convolution (GridConv), mimicking the wisdom of regular convolution operations
in image space. GridConv is based on a novel Semantic Grid Transformation (SGT)
which leverages a binary assignment matrix to map the irregular
graph-structured human pose onto a regular weave-like grid pose representation
joint by joint, enabling layer-wise feature learning with GridConv operations.
We provide two ways to implement SGT, including handcrafted and learnable
designs. Surprisingly, both designs turn out to achieve promising results and
the learnable one is better, demonstrating the great potential of this new
lifting representation learning formulation. To improve the ability of GridConv
to encode contextual cues, we introduce an attention module over the
convolutional kernel, making grid convolution operations input-dependent,
spatial-aware and grid-specific. We show that our fully convolutional grid
lifting network outperforms state-of-the-art methods with noticeable margins
under (1) conventional evaluation on Human3.6M and (2) cross-evaluation on
MPI-INF-3DHP. Code is available at https://github.com/OSVAI/GridConv
- Abstract(参考訳): 2次元単一視点ポーズから3次元人間のポーズを後退させるための既存の昇降ネットワークは、グラフ構造表現学習に基づく線形層で構築される。
本稿では,画像空間における正規畳み込み操作の知恵を模倣したグリッド畳み込み(GridConv)を提案する。
gridconvは、新しいセマンティックグリッド変換(sgt)に基づいて、不規則なグラフ構造された人間のポーズを、通常のウィーブ状のグリッドポーズ表現ジョイントにジョイントでマッピングし、gridconv操作によるレイヤ単位での機能学習を可能にする。
ハンドクラフトと学習可能な設計を含む,SGTを実装するための2つの方法を提供する。
驚くべきことに、どちらの設計も有望な結果を得ることができ、学習可能な設計の方が優れていることが判明した。
コンテクストキューをエンコードするGridConvの能力を改善するため,コンボリューションカーネル上にアテンションモジュールを導入し,グリッドのコンボリューション操作を入力依存,空間認識,グリッド固有にする。
筆者らの完全畳み込みグリッドリフトネットワークは,(1)Human3.6Mの従来評価,(2)MPI-INF-3DHPの相互評価において,最先端の手法よりも優れていることを示す。
コードはhttps://github.com/OSVAI/GridConvで入手できる。
関連論文リスト
- HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - Ske2Grid: Skeleton-to-Grid Representation Learning for Action
Recognition [15.497054173951584]
Ske2Gridは骨格に基づく行動認識を改善するための新しい表現学習フレームワークである。
グラフ畳み込みネットワーク上にネットワークを構築し、6つの主流骨格に基づく行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2023-08-15T04:49:11Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Towards Complete-View and High-Level Pose-based Gait Recognition [19.69177679378616]
本稿では,フルランク変換行列を学習し,各シングルビューポーズサンプルに対して多視点ポーズシーケンスを生成することを提案する。
提案手法は,ベースラインモデルと既存のポーズベース手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-09-23T13:13:59Z) - Dual Octree Graph Networks for Learning Adaptive Volumetric Shape
Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。
エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。
提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文 参考訳(メタデータ) (2022-05-05T17:56:34Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Beyond Fixed Grid: Learning Geometric Image Representation with a
Deformable Grid [70.83353059694531]
本稿では,学習可能なニューラルネットワークモジュールであるemphDeformable Grid DefGridを紹介する。
DefGridは、2次元三角格子の頂点の位置オフセットを予測する。
セマンティックセグメンテーションのための一様グリッド上でCNNを使用する場合と比較して,同じグリッド解像度で有意に改善された結果を示す。
論文 参考訳(メタデータ) (2020-08-21T02:22:06Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。