論文の概要: SDPose: Exploiting Diffusion Priors for Out-of-Domain and Robust Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.24980v1
- Date: Mon, 29 Sep 2025 16:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.118793
- Title: SDPose: Exploiting Diffusion Priors for Out-of-Domain and Robust Pose Estimation
- Title(参考訳): SDPose: アウト・オブ・ドメインとロバスト・ポーズ推定に先立って拡散を爆発させる
- Authors: Shuang Liang, Jing He, Chuanmeizhi Wang, Lejun Liao, Guo Zhang, Yingcong Chen, Yuan Yuan,
- Abstract要約: 安定拡散に基づく微調整フレームワークである textbfSDPose を提案する。
我々は、遅延した特徴を軽量な畳み込みポーズヘッドを通じてキーポイントのヒートマップにマッピングし、事前訓練されたバックボーンの破壊を避ける。
SDPoseは、COCO上でSapiensが使用するトレーニングスケジュールの5分の1しか使用せず、COCO検証セット上でSapiens-1B/2Bと同等である。
- 参考スコア(独自算出の注目度): 31.264901827264435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained diffusion models provide rich multi-scale latent features and are emerging as powerful vision backbones. While recent works such as Marigold~\citep{ke2024repurposing} and Lotus~\citep{he2024lotus} adapt diffusion priors for dense prediction with strong cross-domain generalization, their potential for structured outputs (e.g., human pose estimation) remains underexplored. In this paper, we propose \textbf{SDPose}, a fine-tuning framework built upon Stable Diffusion to fully exploit pre-trained diffusion priors for human pose estimation. First, rather than modifying cross-attention modules or introducing learnable embeddings, we directly predict keypoint heatmaps in the SD U-Net's image latent space to preserve the original generative priors. Second, we map these latent features into keypoint heatmaps through a lightweight convolutional pose head, which avoids disrupting the pre-trained backbone. Finally, to prevent overfitting and enhance out-of-distribution robustness, we incorporate an auxiliary RGB reconstruction branch that preserves domain-transferable generative semantics. To evaluate robustness under domain shift, we further construct \textbf{COCO-OOD}, a style-transferred variant of COCO with preserved annotations. With just one-fifth of the training schedule used by Sapiens on COCO, SDPose attains parity with Sapiens-1B/2B on the COCO validation set and establishes a new state of the art on the cross-domain benchmarks HumanArt and COCO-OOD. Furthermore, we showcase SDPose as a zero-shot pose annotator for downstream controllable generation tasks, including ControlNet-based image synthesis and video generation, where it delivers qualitatively superior pose guidance.
- Abstract(参考訳): 事前訓練された拡散モデルは、リッチなマルチスケールの潜在機能を提供し、強力なビジョンバックボーンとして現れている。
Marigold~\citep{ke2024repurposing} や Lotus~\citep{he2024lotus} といった最近の研究は、強いクロスドメインの一般化を伴う密接な予測に拡散の先行を適応させているが、構造化された出力(例えば、人間のポーズ推定)の可能性はいまだ検討されていない。
本稿では,人間のポーズ推定のために,事前学習した拡散先を十分に活用するために,安定拡散に基づく微調整フレームワークである「textbf{SDPose}」を提案する。
まず,有向モジュールの変更や学習可能な埋め込みを導入する代わりに,SD U-Netのイメージ潜在空間におけるキーポイントヒートマップを直接予測して,生成前の前兆を保存する。
第二に、これらの潜伏した特徴を軽量な畳み込みポーズヘッドを通じてキーポイントのヒートマップにマッピングし、事前訓練されたバックボーンの破壊を避ける。
最後に,ドメイン変換可能な生成セマンティクスを保持する補助的なRGB再構築ブランチを組み込んだ。
ドメインシフト下でのロバスト性を評価するため,アノテーションを保存したCOCOのスタイル変換版である \textbf{COCO-OOD} を構築した。
COCO上でSapiensが使用しているトレーニングスケジュールの5分の1で、SDPoseはCOCO検証セットでSapiens-1B/2Bと同等に達し、クロスドメインベンチマークであるHumanArtとCOCO-OODで新たな最先端を確立する。
さらに、SDPoseは、制御ネットに基づく画像合成やビデオ生成など、下流制御可能なタスクのためのゼロショットポーズアノテータとして、質的に優れたポーズガイダンスを提供する。
関連論文リスト
- RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors [54.81109375939306]
RGE-GSは、拡散に基づく生成と報酬誘導ガウス積分を相乗化する新しい拡張的再構築フレームワークである。
本稿では,復元フェーズに先立って一貫したパターンを識別・優先順位付けする報奨ネットワークを提案する。
復元過程において,シーン収束度に応じてガウス最適化の進捗を自動的に調整する学習戦略を考案した。
論文 参考訳(メタデータ) (2025-06-28T08:02:54Z) - DPBridge: Latent Diffusion Bridge for Dense Prediction [49.1574468325115]
DPBridgeは、密度予測タスクのための最初の潜伏拡散ブリッジフレームワークである。
提案手法は,異なるシナリオ下での有効性と能力の一般化を実証し,優れた性能を継続的に達成する。
論文 参考訳(メタデータ) (2024-12-29T15:50:34Z) - Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation [9.569646683579899]
連続画像からの自己監督下周深度推定は経済的な代替手段を提供する。
従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、それらのいくつかは、クロスビュー制約を明示的に考慮している。
本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:29:05Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。