論文の概要: Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild
- arxiv url: http://arxiv.org/abs/2603.02619v1
- Date: Tue, 03 Mar 2026 05:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.651411
- Title: Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild
- Title(参考訳): 自然界の3次元人間への単一画像作成のための直接逆さまの微調整
- Authors: Seunguk Do, Minwoo Huh, Joonghyuk Shin, Jaesik Park,
- Abstract要約: シングルビュー3Dの復元は目覚ましい進歩を遂げたが、回収された3Dのヒトは、しばしば不自然なポーズを呈する。
本稿では,多視点拡散モデルの各種ポーズに対する後学習を可能にする,Poses上でのダイレクトリワード微調整アルゴリズムであるDrPoseを紹介する。
DrPoseは、PoseScoreを最大化するために直接報酬を微調整する、単一のビューイメージと組み合わせた人間のポーズのみを使用してモデルを訓練する。
- 参考スコア(独自算出の注目度): 29.18347483848261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Single-view 3D human reconstruction has achieved remarkable progress through the adoption of multi-view diffusion models, yet the recovered 3D humans often exhibit unnatural poses. This phenomenon becomes pronounced when reconstructing 3D humans with dynamic or challenging poses, which we attribute to the limited scale of available 3D human datasets with diverse poses. To address this limitation, we introduce DrPose, Direct Reward fine-tuning algorithm on Poses, which enables post-training of a multi-view diffusion model on diverse poses without requiring expensive 3D human assets. DrPose trains a model using only human poses paired with single-view images, employing a direct reward fine-tuning to maximize PoseScore, which is our proposed differentiable reward that quantifies consistency between a generated multi-view latent image and a ground-truth human pose. This optimization is conducted on DrPose15K, a novel dataset that was constructed from an existing human motion dataset and a pose-conditioned video generative model. Constructed from abundant human pose sequence data, DrPose15K exhibits a broader pose distribution compared to existing 3D human datasets. We validate our approach through evaluation on conventional benchmark datasets, in-the-wild images, and a newly constructed benchmark, with a particular focus on assessing performance on challenging human poses. Our results demonstrate consistent qualitative and quantitative improvements across all benchmarks. Project page: https://seunguk-do.github.io/drpose.
- Abstract(参考訳): 多視点拡散モデルの導入により、単視点3Dの復元は目覚ましい進歩を遂げてきたが、回収された3Dのヒトは、しばしば不自然なポーズを呈する。
この現象は、動的または困難なポーズで3Dの人間を再構成する際に顕著になる。
この制限に対処するため、我々はPasses上でDrPose, Direct Reward fine-tuningアルゴリズムを導入し、高価な3D人的資産を必要とせず、多視点拡散モデルの様々なポーズに対する後学習を可能にする。
DrPoseは、単一視点画像と組み合わせた人間のポーズのみを用いてモデルを訓練し、PoseScoreを最大化するために直接報酬微調整を用いる。
この最適化は、既存の人間のモーションデータセットとポーズ条件のビデオ生成モデルから構築された新しいデータセットであるDrPose15Kを用いて行われる。
豊富な人間のポーズシーケンスデータから構築されたDrPose15Kは、既存の3D人間のデータセットと比較してより広いポーズ分布を示す。
提案手法は,従来のベンチマークデータセット,アプリ内画像,新たに構築されたベンチマークに基づいて評価し,課題のある人間のポーズに対するパフォーマンス評価に特化して検証する。
その結果,全てのベンチマークにおいて定性的,定量的に一貫した改善が得られた。
プロジェクトページ: https://seunguk-do.github.io/drpose。
関連論文リスト
- DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior [82.9526308672547]
DPoser-Xは3次元人体写真の拡散に基づく先行モデルである。
提案手法は,様々なポーズ中心タスクを逆問題として統一し,変分拡散サンプリングにより解決する。
我々のモデルは、常に最先端の代替品よりも優れており、人体全体のポーズを事前モデリングするための新しいベンチマークを確立している。
論文 参考訳(メタデータ) (2025-08-01T12:56:39Z) - MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。
T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-03-11T09:37:15Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Pose-NDF: Modeling Human Pose Manifolds with Neural Distance Fields [47.62275563070933]
ニューラル距離場(NDF)に基づく可塑性人間のポーズの連続モデルを提案する。
Pose-NDFは、ニューラルネットワークの暗黙関数のゼロレベル集合として可塑性ポーズの多様体を学習する。
ランダムサンプリングとプロジェクションにより、VAEベースの手法よりも多様なポーズを生成することができる。
論文 参考訳(メタデータ) (2022-07-27T21:46:47Z) - PoseGU: 3D Human Pose Estimation with Novel Human Pose Generator and
Unbiased Learning [36.609189237732394]
3Dポーズ推定は近年,コンピュータビジョン領域において大きな関心を集めている。
既存の3Dポーズ推定手法は,大規模な3Dポーズデータセットに強く依存している。
本稿では,種子サンプルの小さなサイズにのみアクセス可能な多彩なポーズを生成する新規な人造ポーズ生成装置PoseGUを提案する。
論文 参考訳(メタデータ) (2022-07-07T23:43:53Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous
Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。
身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。
提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-02T13:55:31Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。