論文の概要: HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2412.04456v2
- Date: Wed, 18 Dec 2024 03:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:13.522470
- Title: HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery
- Title(参考訳): HeatFormer: マルチビューヒューマンメッシュリカバリのためのニューラルネットワーク最適化
- Authors: Yuto Matsubara, Ko Nishino,
- Abstract要約: 本稿では,複数の静的なビューをフル活用可能な,人間の形状とポーズの復元手法を提案する。
マルチビュー画像のSMPLパラメータを反復的に洗練するニューラルパラメータであるHeatFormerでこれを実現する。
HeatFormerは、このSMPL推定を、新しいトランスフォーマーエンコーダとデコーダとのアライメントとして実現している。
- 参考スコア(独自算出の注目度): 19.20790327389337
- License:
- Abstract: We introduce a novel method for human shape and pose recovery that can fully leverage multiple static views. We target fixed-multiview people monitoring, including elderly care and safety monitoring, in which calibrated cameras can be installed at the corners of a room or an open space but whose configuration may vary depending on the environment. Our key idea is to formulate it as neural optimization. We achieve this with HeatFormer, a neural optimizer that iteratively refines the SMPL parameters given multiview images, which is fundamentally agonistic to the configuration of views. HeatFormer realizes this SMPL parameter estimation as heat map generation and alignment with a novel transformer encoder and decoder. We demonstrate the effectiveness of HeatFormer including its accuracy, robustness to occlusion, and generalizability through an extensive set of experiments. We believe HeatFormer can serve a key role in passive human behavior modeling.
- Abstract(参考訳): 本稿では,複数の静的なビューをフル活用可能な,人間の形状とポーズの復元手法を提案する。
本研究では, 高齢者の介護や安全監視など, 室内や空間の隅にキャリブレーションされたカメラを設置することができるが, 環境によって構成が異なる固定型マルチビューの人々の監視を対象とする。
私たちのキーとなるアイデアは、それをニューラル最適化として定式化することです。
我々は、マルチビュー画像に対してSMPLパラメータを反復的に洗練するニューラルオプティマイザであるHeatFormerでこれを実現する。
HeatFormerは、このSMPLパラメータ推定を、新しいトランスフォーマーエンコーダとデコーダとのアライメントとして実現している。
本研究では,HeatFormerの精度,閉塞に対する堅牢性,広範囲な実験を通しての一般化性などの有効性を実証する。
私たちはHeatFormerが受動的人間の行動モデリングにおいて重要な役割を果たすと信じています。
関連論文リスト
- DeforHMR: Vision Transformer with Deformable Cross-Attention for 3D Human Mesh Recovery [2.1653492349540784]
DeforHMRは、人間のポーズパラメータの予測を強化するために設計された、新しい回帰ベースの単分子HMRフレームワークである。
DeforHMRは、トランスフォーマーデコーダ内の新しいクエリ非依存の変形可能なクロスアテンション機構を活用する。
広範に使用されている3D HMRベンチマーク3DPW と RICH 上で,単一フレーム回帰に基づく手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-18T00:46:59Z) - vHeat: Building Vision Models upon Heat Conduction [63.00030330898876]
vHeatは、高い計算効率とグローバルな受容場の両方を同時に達成する、新しいビジョンバックボーンモデルである。
基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
論文 参考訳(メタデータ) (2024-05-26T12:58:04Z) - MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction [12.942635715952525]
複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。
以前の研究では、複数の視点の下で自己排除によって生じる課題を見落としていた。
複数のカメラビューから3次元人体を再構築する手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T05:03:25Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation [71.24808323646167]
ニューラルネットワークを用いてキーポイントのヒートマップを学習するための新しいスキームである textbfDiffusionPose を提案する。
トレーニング中、キーポイントはノイズを加えることでランダム分布に拡散され、拡散モデルはノイズ付きヒートマップから地中構造熱マップを復元する。
実験では、広く使用されているCOCO、CrowdPose、AI Challengeデータセット上で1.6、1.2、1.2mAPの改善による、私たちのスキームの長所が示されている。
論文 参考訳(メタデータ) (2023-06-29T16:24:32Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。