Fugu-MT 論文翻訳(概要): VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery

論文の概要: VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery

arxiv url: http://arxiv.org/abs/2602.19180v1
Date: Sun, 22 Feb 2026 13:19:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.52006
Title: VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery
Title（参考訳）: 拡散に基づくヒューマンメッシュ回復のためのVLM誘導グループ選好アライメント
Authors: Wenhao Shen, Hao Wang, Wanqi Yin, Fayao Liu, Xulei Yang, Chao Liang, Zhongang Cai, Guosheng Lin,
Abstract要約: 我々は、予測メッシュの文脈認識品質スコアを生成するために、自己回帰付きデュアルメモリ拡張HMRクオリティエージェントを導入する。これらのスコアは、人間の3次元運動構造、物理的実現可能性、入力画像との整合性に関するきめ細かい手がかりを蒸留する。拡散型HMRモデルの微調整のためのグループ選好アライメントフレームワークを提案する。
参考スコア（独自算出の注目度）: 75.62565146049015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human mesh recovery (HMR) from a single RGB image is inherently ambiguous, as multiple 3D poses can correspond to the same 2D observation. Recent diffusion-based methods tackle this by generating various hypotheses, but often sacrifice accuracy. They yield predictions that are either physically implausible or drift from the input image, especially under occlusion or in cluttered, in-the-wild scenes. To address this, we introduce a dual-memory augmented HMR critique agent with self-reflection to produce context-aware quality scores for predicted meshes. These scores distill fine-grained cues about 3D human motion structure, physical feasibility, and alignment with the input image. We use these scores to build a group-wise HMR preference dataset. Leveraging this dataset, we propose a group preference alignment framework for finetuning diffusion-based HMR models. This process injects the rich preference signals into the model, guiding it to generate more physically plausible and image-consistent human meshes. Extensive experiments demonstrate that our method achieves superior performance compared to state-of-the-art approaches.
Abstract（参考訳）: 単一のRGB画像からのヒューマンメッシュリカバリ(HMR)は本質的に不明瞭であり、複数の3Dポーズは同じ2D観察に対応できる。近年の拡散法は様々な仮説を生成することでこの問題に対処しているが、しばしば精度を犠牲にしている。それらは、物理的に不可解であるか、入力画像から漂うか、特に隠蔽下か、散らばった、地中に散らばった場面で予測する。これを解決するために、予測メッシュに対する文脈認識品質スコアを生成するために、自己回帰付きデュアルメモリ拡張HMR批判エージェントを導入する。これらのスコアは、人間の3次元運動構造、物理的実現可能性、入力画像との整合性に関するきめ細かい手がかりを蒸留する。これらのスコアを使用して、グループワイズHMR選好データセットを構築します。このデータセットを活用し,拡散型HMRモデルの微調整のための群選好アライメントフレームワークを提案する。このプロセスは、リッチな嗜好信号をモデルに注入し、より物理的に可塑性で画像に一貫性のある人間のメッシュを生成するように誘導する。大規模な実験により,本手法は最先端手法と比較して優れた性能を発揮することが示された。

関連論文リスト

Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference [69.34278282513593]
Preference Score Distillation (PSD) は、3Dトレーニングデータなしでテキストから3D合成を行うための最適化ベースのフレームワークである。我々の重要な洞察は、ピクセルレベルの勾配の不整合性に起因している。我々は、好みスコアと負のテキスト埋め込みを協調最適化するための適応戦略を導入する。
論文参考訳（メタデータ） (2026-03-02T08:23:36Z)
LieHMR: Autoregressive Human Mesh Recovery with $SO(3)$ Diffusion [29.608043710963162]
単一のRGB画像からHuman Meshリカバリの問題に取り組む。 2次元観察から3次元の人間のポーズを復元することは本質的に曖昧であるが、既存のアプローチのほとんどは単一の決定論的出力を後退させている。本稿では,2次元観察に適合した分布をモデル化する手法を提案する。
論文参考訳（メタデータ） (2025-09-30T03:50:56Z)
ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization [51.904899019761594]
本稿では、拡散に基づくHMRモデルを好みの最適化方法でアライメントするADHMRを提案する。まず、人間のメッシュ予測モデルであるHMR-Scorerを訓練し、3Dアノテーションを使わずに、Wild画像であっても予測を評価する。次に、HMR-Scorerを使用して好みのデータセットを作成し、各入力画像は勝者と敗者メッシュ予測のペアを持つ。
論文参考訳（メタデータ） (2025-05-15T13:04:51Z)
Personalized 3D Human Pose and Shape Refinement [19.082329060985455]
回帰に基づく手法は3次元人間のポーズと形状推定の分野を支配してきた。本稿では,初期人間のモデル推定値と対応する画像との密接な対応性を構築することを提案する。提案手法は画像モデルアライメントの改善だけでなく,3次元精度の向上にも寄与する。
論文参考訳（メタデータ） (2024-03-18T10:13:53Z)
Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。 ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文参考訳（メタデータ） (2024-03-14T17:56:14Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)
Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文参考訳（メタデータ） (2020-08-04T05:40:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。