論文の概要: Multi-view Human Body Mesh Translator
- arxiv url: http://arxiv.org/abs/2210.01886v1
- Date: Tue, 4 Oct 2022 20:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:00:16.117214
- Title: Multi-view Human Body Mesh Translator
- Title(参考訳): 多視点人体メッシュトランスレータ
- Authors: Xiangjian Jiang, Xuecheng Nie, Zitian Wang, Luoqi Liu, Si Liu
- Abstract要約: 人体メッシュを推定するための新しいtextbfMulti-view human body textbfMesh textbfTranslator (MMT) モデルを提案する。
MMTは、エンコーディングフェーズとデコードフェーズの両方で異なるビューの特徴を融合させ、グローバル情報に埋め込まれた表現をもたらす。
- 参考スコア(独自算出の注目度): 20.471741894219228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for human mesh recovery mainly focus on single-view
frameworks, but they often fail to produce accurate results due to the
ill-posed setup. Considering the maturity of the multi-view motion capture
system, in this paper, we propose to solve the prior ill-posed problem by
leveraging multiple images from different views, thus significantly enhancing
the quality of recovered meshes. In particular, we present a novel
\textbf{M}ulti-view human body \textbf{M}esh \textbf{T}ranslator (MMT) model
for estimating human body mesh with the help of vision transformer.
Specifically, MMT takes multi-view images as input and translates them to
targeted meshes in a single-forward manner. MMT fuses features of different
views in both encoding and decoding phases, leading to representations embedded
with global information. Additionally, to ensure the tokens are intensively
focused on the human pose and shape, MMT conducts cross-view alignment at the
feature level by projecting 3D keypoint positions to each view and enforcing
their consistency in geometry constraints. Comprehensive experiments
demonstrate that MMT outperforms existing single or multi-view models by a
large margin for human mesh recovery task, notably, 28.8\% improvement in MPVE
over the current state-of-the-art method on the challenging HUMBI dataset.
Qualitative evaluation also verifies the effectiveness of MMT in reconstructing
high-quality human mesh. Codes will be made available upon acceptance.
- Abstract(参考訳): 既存のヒューマンメッシュリカバリの方法は、主に単一ビューフレームワークに重点を置いているが、設定が不適切なため、正確な結果が得られないことが多い。
本稿では,多視点モーションキャプチャシステムの成熟度を考慮し,異なる視点からの複数の画像を活用することで,従来の不適切な問題を解決することを提案する。
特に、視覚変換器の助けを借りて人体メッシュを推定するための、新規な \textbf{M}ulti-view human body \textbf{M}esh \textbf{T}ranslator (MMT) モデルを提案する。
具体的には、マルチビュー画像を入力として、単一のフォワードでターゲットメッシュに変換する。
MMTは、エンコーディングフェーズとデコードフェーズの両方で異なるビューの特徴を融合させ、グローバル情報に埋め込まれた表現をもたらす。
さらに、トークンが人間の姿勢や形状に集中的に焦点を合わせるために、MTTは、各ビューに3Dキーポイント位置を投影し、それらの整合性を幾何制約で強制することにより、特徴レベルでクロスビューアライメントを行う。
総合的な実験により、MTTは既存の単一または複数ビューモデルよりも、人間のメッシュ回復タスクにおいて大きなマージンで、特に、挑戦的なHUMBIデータセットに関する現在の最先端手法よりも28.8%改善されていることが示されている。
質的評価はまた、高品質ヒトメッシュの再構築におけるmmtの有効性を検証する。
コードは受理時に利用可能になる。
関連論文リスト
- Divide and Fuse: Body Part Mesh Recovery from Partially Visible Human Images [57.479339658504685]
ディバイドとフューズ」戦略は、人体部分を融合する前に独立して再構築する。
Human Part Parametric Models (HPPM) は、いくつかの形状とグローバルな位置パラメータからメッシュを独立に再構築する。
特別に設計された融合モジュールは、一部しか見えない場合でも、再建された部品をシームレスに統合する。
論文 参考訳(メタデータ) (2024-07-12T21:29:11Z) - Human Mesh Recovery from Arbitrary Multi-view Images [57.969696744428475]
任意の多視点画像からU-HMR(Unified Human Mesh Recovery)を分離・征服する枠組みを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビューフュージョン(AVF)の2つの主要コンポーネントから構成されている。
我々は、Human3.6M、MPI-INF-3DHP、TotalCaptureの3つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-03-19T04:47:56Z) - SiMA-Hand: Boosting 3D Hand-Mesh Reconstruction by Single-to-Multi-View
Adaptation [90.59734612754222]
RGB画像から3Dハンドメッシュを推定することは、最も難しい問題のひとつです。
このタスクに対する既存の試みは、オクルージョンが画像空間を支配しているときに失敗することが多い。
本稿では,Single-to-Multi-view Adaptationによるメッシュ再構成性能の向上を目的としたSiMA-Handを提案する。
論文 参考訳(メタデータ) (2024-02-02T13:14:20Z) - HandMIM: Pose-Aware Self-Supervised Learning for 3D Hand Mesh Estimation [5.888156950854715]
本稿では,3次元ハンドメッシュパラメータの回帰のための自己教師付き事前学習戦略を提案する。
提案手法はHandMIMと呼ばれ,様々なハンドメッシュ推定タスクにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2023-07-29T19:46:06Z) - HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image
Segmentation [29.15746532186427]
HybridMIMは3次元医用画像セグメンテーションのためのマスク付き画像モデリングに基づく新しいハイブリッド自己教師型学習手法である。
医用画像の意味情報を3段階に分けて学習し,1)3次元画像の重要な内容を再構成する部分領域予測を行うことにより,トレーニング前の時間負担を大幅に軽減する。
提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。
論文 参考訳(メタデータ) (2023-03-18T04:43:12Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Multi-View Matching (MVM): Facilitating Multi-Person 3D Pose Estimation
Learning with Action-Frozen People Video [38.63662549684785]
MVM法は大規模ビデオデータセットから信頼性の高い3次元ポーズを生成する。
マルチパーソン3Dポーズ推定のための入力として,1つの画像を取るニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-11T01:09:50Z) - HEMlets PoSh: Learning Part-Centric Heatmap Triplets for 3D Human Pose
and Shape Estimation [60.35776484235304]
本研究は, 中間状態部分熱マップトリプレット(HEMlets)を導入し, 検出された2次元関節を三次元空間に持ち上げる不確実性に対処しようとするものである。
HEMletsは3つのジョイントヒートマップを使用して、各骨格体部に対するエンドジョイントの相対的な深さ情報を表す。
Convolutional Network (ConvNet) は、入力画像からHEMletを予測し、次にボリュームのジョイント・ヒートマップレグレッションを学習する。
論文 参考訳(メタデータ) (2020-03-10T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。