論文の概要: Sketch2PoseNet: Efficient and Generalized Sketch to 3D Human Pose Prediction
- arxiv url: http://arxiv.org/abs/2510.26196v1
- Date: Thu, 30 Oct 2025 07:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.693757
- Title: Sketch2PoseNet: Efficient and Generalized Sketch to 3D Human Pose Prediction
- Title(参考訳): Sketch2PoseNet: 効率的で汎用的なSketchによる3次元ポース予測
- Authors: Li Wang, Yiyu Zhuang, Yanwen Wang, Xun Cao, Chuan Guo, Xinxin Zuo, Hao Zhu,
- Abstract要約: 多様なスケッチスタイルから人間のポーズや形状を推定するためのエンドツーエンドのデータ駆動フレームワークを提案する。
本フレームワークは,既存の2次元ポーズ検出器とスケッチ特徴抽出のための生成拡散先行情報と,効率的な2次元ポーズ推定のためのフィードフォワードニューラルネットワークを組み合わせる。
提案手法は,スケッチ・トゥ・プレイス作業における推定精度と速度の両方において,従来のモデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 34.19632657034878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose estimation from sketches has broad applications in computer animation and film production. Unlike traditional human pose estimation, this task presents unique challenges due to the abstract and disproportionate nature of sketches. Previous sketch-to-pose methods, constrained by the lack of large-scale sketch-3D pose annotations, primarily relied on optimization with heuristic rules-an approach that is both time-consuming and limited in generalizability. To address these challenges, we propose a novel approach leveraging a "learn from synthesis" strategy. First, a diffusion model is trained to synthesize sketch images from 2D poses projected from 3D human poses, mimicking disproportionate human structures in sketches. This process enables the creation of a synthetic dataset, SKEP-120K, consisting of 120k accurate sketch-3D pose annotation pairs across various sketch styles. Building on this synthetic dataset, we introduce an end-to-end data-driven framework for estimating human poses and shapes from diverse sketch styles. Our framework combines existing 2D pose detectors and generative diffusion priors for sketch feature extraction with a feed-forward neural network for efficient 2D pose estimation. Multiple heuristic loss functions are incorporated to guarantee geometric coherence between the derived 3D poses and the detected 2D poses while preserving accurate self-contacts. Qualitative, quantitative, and subjective evaluations collectively show that our model substantially surpasses previous ones in both estimation accuracy and speed for sketch-to-pose tasks.
- Abstract(参考訳): スケッチから3次元の人間のポーズ推定は、コンピュータアニメーションや映画制作に広く応用されている。
従来の人間のポーズ推定とは異なり、このタスクはスケッチの抽象的で不均等な性質のために独特な課題を呈する。
大規模なスケッチ3Dのポーズアノテーションが欠如していることに制約され、主にヒューリスティックなルールによる最適化に依存していた。
これらの課題に対処するため、我々は「合成から学ぶ」戦略を活用した新しいアプローチを提案する。
まず,3次元人間のポーズから投影された2次元ポーズからスケッチ画像を合成し,スケッチ中の不均質な人間の構造を模倣する拡散モデルを訓練する。
このプロセスにより、様々なスケッチスタイルにまたがる120kの正確なスケッチ3Dポーズアノテーションペアからなる合成データセット、SKEP-120Kの作成が可能になる。
この合成データセットに基づいて、多様なスケッチスタイルから人間のポーズや形状を推定するエンドツーエンドのデータ駆動フレームワークを導入する。
本フレームワークは,既存の2次元ポーズ検出器とスケッチ特徴抽出のための生成拡散先行情報と,効率的な2次元ポーズ推定のためのフィードフォワードニューラルネットワークを組み合わせる。
得られた3Dポーズと検出された2Dポーズとの幾何的コヒーレンスを保証するために、正確な自己接触を保ちながら複数のヒューリスティック損失関数を組み込んだ。
定性的,定量的,主観的な評価は,スケッチ・トゥ・プレイス・タスクにおける推定精度と速度の両方において,我々のモデルが従来モデルより大幅に上回っていることを示している。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - SketchBodyNet: A Sketch-Driven Multi-faceted Decoder Network for 3D
Human Reconstruction [18.443079472919635]
そこで本研究では,SketchBodyNetと呼ばれるスケッチ駆動型マルチ顔デコーダネットワークを提案する。
我々のネットワークは,フリーハンドスケッチから3次元メッシュを再構築する際の優れた性能を実現している。
論文 参考訳(メタデータ) (2023-10-10T12:38:34Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。