論文の概要: MEGA: Masked Generative Autoencoder for Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2405.18839v3
- Date: Thu, 14 Nov 2024 10:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:07.442552
- Title: MEGA: Masked Generative Autoencoder for Human Mesh Recovery
- Title(参考訳): MEGA:人間のメッシュ回復のためのマスケ生成オートエンコーダ
- Authors: Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer,
- Abstract要約: 単一のRGB画像からのヒューマンメッシュの回復は、非常にあいまいな問題である。
ほとんどのHMR手法はこの問題を見逃し、曖昧さを考慮せずに単一の予測を行う。
本研究は,マスク生成モデルに基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 33.26995842920877
- License:
- Abstract: Human Mesh Recovery (HMR) from a single RGB image is a highly ambiguous problem, as an infinite set of 3D interpretations can explain the 2D observation equally well. Nevertheless, most HMR methods overlook this issue and make a single prediction without accounting for this ambiguity. A few approaches generate a distribution of human meshes, enabling the sampling of multiple predictions; however, none of them is competitive with the latest single-output model when making a single prediction. This work proposes a new approach based on masked generative modeling. By tokenizing the human pose and shape, we formulate the HMR task as generating a sequence of discrete tokens conditioned on an input image. We introduce MEGA, a MaskEd Generative Autoencoder trained to recover human meshes from images and partial human mesh token sequences. Given an image, our flexible generation scheme allows us to predict a single human mesh in deterministic mode or to generate multiple human meshes in stochastic mode. Experiments on in-the-wild benchmarks show that MEGA achieves state-of-the-art performance in deterministic and stochastic modes, outperforming single-output and multi-output approaches.
- Abstract(参考訳): 単一のRGB画像からのHuman Mesh Recovery(HMR)は、無限の3D解釈の集合が2D観察をうまく説明できるため、非常に曖昧な問題である。
しかしながら、ほとんどのHMR法はこの問題を無視し、この曖昧さを考慮せずに単一の予測を行う。
いくつかのアプローチは、人間のメッシュの分布を生成し、複数の予測のサンプリングを可能にするが、それらのうちの1つの予測を行う際に、最新の単一出力モデルと競合するものは存在しない。
本研究は,マスク生成モデルに基づく新しい手法を提案する。
人間のポーズと形状をトークン化することにより、HMRタスクを入力画像に条件付けられた離散トークンのシーケンスを生成するものとして定式化する。
画像と部分的ヒューマンメッシュトークンシーケンスから人間のメッシュを復元するために訓練された MaskEd Generative Autoencoder であるMEGA を紹介する。
画像が与えられた場合、フレキシブルな生成方式により、決定論的モードで1つの人間のメッシュを予測したり、確率論的モードで複数の人間のメッシュを生成できる。
In-the-wildベンチマークの実験により、MEGAは決定論的および確率的モードにおける最先端のパフォーマンスを達成し、単一出力および複数出力のアプローチより優れていることが示された。
関連論文リスト
- OFER: Occluded Face Expression Reconstruction [16.06622406877353]
OFERは,多彩で表現力に富んだ3次元顔を生成することのできる,単一画像の3次元顔再構成のための新しいアプローチである。
本稿では,予測された形状精度スコアに基づいて形状拡散ネットワークの出力をソートし,最適マッチングを選択する新しいランキング機構を提案する。
論文 参考訳(メタデータ) (2024-10-29T00:21:26Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - Learning Gaussian Representation for Eye Fixation Prediction [54.88001757991433]
既存のアイ固定予測方法は、入力画像から原固定点から生成された対応する濃密な固定マップへのマッピングを行う。
本稿ではアイフィグレーションモデリングのためのガウス表現について紹介する。
我々は,リアルタイムな固定予測を実現するために,軽量なバックボーン上にフレームワークを設計する。
論文 参考訳(メタデータ) (2024-03-21T20:28:22Z) - Generative Approach for Probabilistic Human Mesh Recovery using
Diffusion Models [33.2565018922113]
本研究は、与えられた2次元画像から3次元人体メッシュを再構築する問題に焦点を当てる。
拡散に基づくヒューマンメッシュ回復(Diff-HMR)と呼ばれる生成的アプローチフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-05T22:23:04Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous
Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。
身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。
提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-02T13:55:31Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Multitask Non-Autoregressive Model for Human Motion Prediction [33.98939145212708]
非auToregressive Model (NAT) は、文脈エンコーダと位置エンコードモジュールと同様に、完全な非自己回帰復号方式で提案される。
提案手法はHuman3.6MとCMU-Mocapのベンチマークで評価され,最先端の自己回帰手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-13T15:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。