Fugu-MT 論文翻訳(概要): MEGA: Masked Generative Autoencoder for Human Mesh Recovery

論文の概要: MEGA: Masked Generative Autoencoder for Human Mesh Recovery

arxiv url: http://arxiv.org/abs/2405.18839v3
Date: Thu, 14 Nov 2024 10:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.976615
Title: MEGA: Masked Generative Autoencoder for Human Mesh Recovery
Title（参考訳）: MEGA:人間のメッシュ回復のためのマスケ生成オートエンコーダ
Authors: Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer,
Abstract要約: 単一のRGB画像からのヒューマンメッシュの回復は、非常にあいまいな問題である。ほとんどのHMR手法はこの問題を見逃し、曖昧さを考慮せずに単一の予測を行う。本研究は,マスク生成モデルに基づく新しい手法を提案する。
参考スコア（独自算出の注目度）: 33.26995842920877
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human Mesh Recovery (HMR) from a single RGB image is a highly ambiguous problem, as an infinite set of 3D interpretations can explain the 2D observation equally well. Nevertheless, most HMR methods overlook this issue and make a single prediction without accounting for this ambiguity. A few approaches generate a distribution of human meshes, enabling the sampling of multiple predictions; however, none of them is competitive with the latest single-output model when making a single prediction. This work proposes a new approach based on masked generative modeling. By tokenizing the human pose and shape, we formulate the HMR task as generating a sequence of discrete tokens conditioned on an input image. We introduce MEGA, a MaskEd Generative Autoencoder trained to recover human meshes from images and partial human mesh token sequences. Given an image, our flexible generation scheme allows us to predict a single human mesh in deterministic mode or to generate multiple human meshes in stochastic mode. Experiments on in-the-wild benchmarks show that MEGA achieves state-of-the-art performance in deterministic and stochastic modes, outperforming single-output and multi-output approaches.
Abstract（参考訳）: 単一のRGB画像からのHuman Mesh Recovery(HMR)は、無限の3D解釈の集合が2D観察をうまく説明できるため、非常に曖昧な問題である。しかしながら、ほとんどのHMR法はこの問題を無視し、この曖昧さを考慮せずに単一の予測を行う。いくつかのアプローチは、人間のメッシュの分布を生成し、複数の予測のサンプリングを可能にするが、それらのうちの1つの予測を行う際に、最新の単一出力モデルと競合するものは存在しない。本研究は,マスク生成モデルに基づく新しい手法を提案する。人間のポーズと形状をトークン化することにより、HMRタスクを入力画像に条件付けられた離散トークンのシーケンスを生成するものとして定式化する。画像と部分的ヒューマンメッシュトークンシーケンスから人間のメッシュを復元するために訓練された MaskEd Generative Autoencoder であるMEGA を紹介する。画像が与えられた場合、フレキシブルな生成方式により、決定論的モードで1つの人間のメッシュを予測したり、確率論的モードで複数の人間のメッシュを生成できる。 In-the-wildベンチマークの実験により、MEGAは決定論的および確率的モードにおける最先端のパフォーマンスを達成し、単一出力および複数出力のアプローチより優れていることが示された。

関連論文リスト

VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery [75.62565146049015]
我々は、予測メッシュの文脈認識品質スコアを生成するために、自己回帰付きデュアルメモリ拡張HMRクオリティエージェントを導入する。これらのスコアは、人間の3次元運動構造、物理的実現可能性、入力画像との整合性に関するきめ細かい手がかりを蒸留する。拡散型HMRモデルの微調整のためのグループ選好アライメントフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-22T13:19:06Z)
LieHMR: Autoregressive Human Mesh Recovery with $SO(3)$ Diffusion [29.608043710963162]
単一のRGB画像からHuman Meshリカバリの問題に取り組む。 2次元観察から3次元の人間のポーズを復元することは本質的に曖昧であるが、既存のアプローチのほとんどは単一の決定論的出力を後退させている。本稿では,2次元観察に適合した分布をモデル化する手法を提案する。
論文参考訳（メタデータ） (2025-09-30T03:50:56Z)
Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking [17.371579113481644]
マスケード拡散モデル(MDM)は、離散データのための強力な生成モデルであり、段階的にトークンを配列で解き放つことでサンプルを生成する。本稿では、トークンがマスクされた状態とマスクされていない状態の間を中間状態にすることでMDMを増強する部分マスキングスキーム(Prime)を提案する。本手法は,多種多様な生成モデルタスクに対して優れた性能を示す。
論文参考訳（メタデータ） (2025-05-24T04:16:40Z)
ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization [51.904899019761594]
本稿では、拡散に基づくHMRモデルを好みの最適化方法でアライメントするADHMRを提案する。まず、人間のメッシュ予測モデルであるHMR-Scorerを訓練し、3Dアノテーションを使わずに、Wild画像であっても予測を評価する。次に、HMR-Scorerを使用して好みのデータセットを作成し、各入力画像は勝者と敗者メッシュ予測のペアを持つ。
論文参考訳（メタデータ） (2025-05-15T13:04:51Z)
SeqSAM: Autoregressive Multiple Hypothesis Prediction for Medical Image Segmentation using SAM [8.525516300734024]
複数のマスクを生成するためのシーケンシャルでRNNにインスパイアされたアプローチであるSeqSAMを紹介する。 2つの公開データセットで生成された各マスクの品質が顕著に向上したことを示す。
論文参考訳（メタデータ） (2025-03-12T20:01:52Z)
GenHMR: Generative Human Mesh Recovery [14.708444067294325]
GenHMRは、単分子HMRを画像条件による生成タスクとして再構成する新しい生成フレームワークである。ベンチマークデータセットの実験では、GenHMRが最先端のメソッドよりも大幅に優れていることが示されている。
論文参考訳（メタデータ） (2024-12-19T01:45:58Z)
CondiMen: Conditional Multi-Person Mesh Recovery [0.0]
本研究ではコンディメン(CondiMen)を提案する。コンディメン(CondiMen)は、カメラへのポーズ、体形、内在性、距離に関する共同パラメトリック分布を出力する手法である。私たちのモデルは、最先端技術と同等以上のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-12-17T16:22:56Z)
OFER: Occluded Face Expression Reconstruction [16.06622406877353]
OFERは,多彩で表現力に富んだ3次元顔を生成することのできる,単一画像の3次元顔再構成のための新しいアプローチである。本稿では,予測された形状精度スコアに基づいて形状拡散ネットワークの出力をソートし,最適マッチングを選択する新しいランキング機構を提案する。
論文参考訳（メタデータ） (2024-10-29T00:21:26Z)
Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文参考訳（メタデータ） (2024-06-10T06:38:11Z)
Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。 ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文参考訳（メタデータ） (2024-03-14T17:56:14Z)
Generative Approach for Probabilistic Human Mesh Recovery using Diffusion Models [33.2565018922113]
本研究は、与えられた2次元画像から3次元人体メッシュを再構築する問題に焦点を当てる。拡散に基づくヒューマンメッシュ回復(Diff-HMR)と呼ばれる生成的アプローチフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-05T22:23:04Z)
Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。 2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文参考訳（メタデータ） (2022-07-19T03:31:13Z)
MUG: Multi-human Graph Network for 3D Mesh Reconstruction from 2D Pose [20.099670445427964]
単一の単分子画像からマルチヒューマンボディメッシュを再構築することは重要な問題であるが、コンピュータビジョンの問題である。本研究では,単一グラフニューラルネットワークを用いて,マルチヒューマン2次元ポーズのみを入力として,コヒーレントなマルチヒューマンメッシュを構築する。
論文参考訳（メタデータ） (2022-05-25T08:54:52Z)
Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文参考訳（メタデータ） (2021-08-26T17:55:11Z)
3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-11-02T13:55:31Z)
Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文参考訳（メタデータ） (2020-08-27T17:21:47Z)
Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文参考訳（メタデータ） (2020-06-15T17:51:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。