論文の概要: Monocular Human Shape and Pose with Dense Mesh-borne Local Image
Features
- arxiv url: http://arxiv.org/abs/2111.05319v2
- Date: Wed, 10 Nov 2021 02:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 12:05:40.393579
- Title: Monocular Human Shape and Pose with Dense Mesh-borne Local Image
Features
- Title(参考訳): 密集したメッシュ型局所画像特徴を有する単眼形状とポーズ
- Authors: Shubhendu Jena, Franck Multon, Adnane Boukhayma
- Abstract要約: 本稿では,人物形状に対するグラフ畳み込みに基づくアプローチの改善と,画素配列の局所像特徴を用いたポーズ推定を提案する。
標準ベンチマークの結果から,グローバルな環境における局所的特徴の利用が向上し,最先端技術に対する競争性能が向上することが示された。
- 参考スコア(独自算出の注目度): 8.422257363944295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to improve on graph convolution based approaches for human shape
and pose estimation from monocular input, using pixel-aligned local image
features. Given a single input color image, existing graph convolutional
network (GCN) based techniques for human shape and pose estimation use a single
convolutional neural network (CNN) generated global image feature appended to
all mesh vertices equally to initialize the GCN stage, which transforms a
template T-posed mesh into the target pose. In contrast, we propose for the
first time the idea of using local image features per vertex. These features
are sampled from the CNN image feature maps by utilizing pixel-to-mesh
correspondences generated with DensePose. Our quantitative and qualitative
results on standard benchmarks show that using local features improves on
global ones and leads to competitive performances with respect to the
state-of-the-art.
- Abstract(参考訳): ピクセルアライメントによる局所画像特徴を用いた単眼入力による人物形状とポーズ推定のためのグラフ畳み込み手法の改良を提案する。
単一入力カラー画像が与えられた場合、既存のグラフ畳み込みネットワーク(GCN)ベースの人体形状とポーズ推定技術は、すべてのメッシュ頂点に等しく付加された単一の畳み込みニューラルネットワーク(CNN)によって生成されたグローバル画像特徴を用いて、GCNステージを初期化し、テンプレートTポーズメッシュをターゲットポーズに変換する。
対照的に,頂点ごとに局所的な画像特徴を用いるというアイデアを初めて提案する。
これらの特徴は、DensePoseで生成された画素間対応を利用して、CNN画像特徴マップからサンプリングされる。
標準ベンチマークにおける定量および定性的な結果から,局所的な特徴の利用はグローバルな特徴よりも改善され,最先端技術に対する競争性能が向上することが示された。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - PoNQ: a Neural QEM-based Mesh Representation [33.81124790808585]
学習可能なメッシュ表現を,局所的な3次元サンプルポイントとその関連する正規値および擬似誤差メトリクス(QEM)を用いて導入する。
グローバルメッシュは、局所的な二次誤差の知識を効率的に活用することにより、PoNQから直接導出される。
SDFグリッドからの学習に基づくメッシュ予測により,PoNQの有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T16:15:08Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Learning Self-Prior for Mesh Inpainting Using Self-Supervised Graph Convolutional Networks [4.424836140281846]
入力として不完全なメッシュのみを必要とする自己優先型のメッシュインペイントフレームワークを提案する。
本手法は塗装工程を通して多角形メッシュフォーマットを維持している。
提案手法は従来のデータセットに依存しない手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-01T02:51:38Z) - Shape Preserving Facial Landmarks with Graph Attention Networks [3.996275177789895]
本稿では,CNN と Graph Attention Network Regressors のカスケードを組み合わせたモデルを提案する。
顔のランドマークの外観と位置を共同で表現するエンコーディングと、その信頼性に応じて情報を測定するアテンション機構を導入する。
実験により,提案モデルが顔の構造のグローバルな表現を学習し,頭部ポーズとランドマーク推定のベンチマークで最高性能を達成できることが確認された。
論文 参考訳(メタデータ) (2022-10-13T17:58:02Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Pose-GNN : Camera Pose Estimation System Using Graph Neural Networks [12.12580095956898]
グラフニューラルネットワーク(GNN)を用いた新しい画像ベースのローカリゼーションシステムを提案する。
resnet50 convolutional neural network (cnn)アーキテクチャは、各画像の重要な特徴を抽出するために使用される。
GNNの使用は屋内および屋外の環境のための高められた性能をもたらすことを示します。
論文 参考訳(メタデータ) (2021-03-17T04:40:02Z) - Locality Preserving Dense Graph Convolutional Networks with Graph
Context-Aware Node Representations [19.623379678611744]
グラフ畳み込みネットワーク(GCN)はグラフデータの表現学習に広く利用されている。
多くのグラフ分類アプリケーションにおいて、GCNベースのアプローチは従来の手法よりも優れている。
グラフコンテキスト対応ノード表現を用いた局所性保存型高密度GCNを提案する。
論文 参考訳(メタデータ) (2020-10-12T02:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。