論文の概要: Geometry-Conditioned Diffusion for Occlusion-Robust In-Bed Pose Estimation
- arxiv url: http://arxiv.org/abs/2604.23651v1
- Date: Sun, 26 Apr 2026 10:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.4825
- Title: Geometry-Conditioned Diffusion for Occlusion-Robust In-Bed Pose Estimation
- Title(参考訳): 閉塞層内ポッド推定のための幾何条件付き拡散法
- Authors: Navid Aslankhani Khameneh, Marco Carletti, Cigdem Beyan,
- Abstract要約: 本研究では,オクルージョン・アウェア・オーグメンテーションを幾何学的条件付き生成モデルタスクとして再構成する。
画像誘導法とは異なり、Pose-LDMは骨格キーポイントから直接毛布で覆われた画像を合成する。
その結果、幾何学条件付き拡散は、埋め込みポーズ推定に対する効果的かつ監督効率の高い経路を提供することを示した。
- 参考スコア(独自算出の注目度): 2.574393697080417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robust in-bed human pose estimation under blanket occlusion remains challenging due to the scarcity of reliable labeled training data for heavily covered poses. Existing approaches rely on multi-modal sensing or image-to-image translation frameworks that remain conditioned on visible source imagery, limiting scalability and pose diversity. In this work, we reformulate occlusion-aware augmentation as a geometry-conditioned generative modeling task. We conduct a systematic comparison of deterministic masking, unpaired translation, paired diffusion-based translation, and a proposed pose-conditioned Latent Diffusion Model (Pose-LDM). Unlike image-guided methods, Pose-LDM synthesizes blanket-covered images directly from skeletal keypoints, eliminating dependence on paired supervision and pixel-level source-image conditioning while enabling generation from arbitrary pose inputs. All augmentation strategies are evaluated through their impact on downstream pose estimation under a fixed backbone. Pose- LDM achieves the highest strict localization accuracy under severe occlusion while maintaining overall detection performance comparable to paired diffusion models, approaching the performance of fully supervised training. These results demonstrate that geometry-conditioned diffusion provides an effective and supervision-efficient pathway toward occlusion-robust inbed pose estimation without modifying the sensing pipeline. The code is available at: github.com/navidTerraNova/ GeoDiffPose.
- Abstract(参考訳): 密集したポーズに対する信頼性のあるラベル付きトレーニングデータが不足しているため、毛布閉塞下でのロバストな人のポーズ推定は依然として困難である。
既存のアプローチはマルチモーダルセンシングや画像から画像への変換フレームワークに依存している。
本研究では,オクルージョン・アウェア・オーグメンテーションを幾何学的条件付き生成モデルタスクとして再構成する。
本稿では,決定論的マスキング,未ペア翻訳,ペア拡散に基づく翻訳,ポーズ条件付き潜在拡散モデル(Pose-LDM)の体系的比較を行う。
画像誘導法とは異なり、Pose-LDMは、スケレのキーポイントから直接毛布で覆われた画像を合成し、任意のポーズ入力から生成できると同時に、ペア化された監督と画素レベルのソースイメージ条件への依存を排除している。
すべての増強戦略は、固定されたバックボーンの下で下流のポーズ推定に与える影響によって評価される。
Pose-LDMは、ペア拡散モデルに匹敵する全体的な検出性能を維持しながら、厳密な閉塞下での極度に厳密なローカライゼーション精度を実現し、完全教師付きトレーニングの性能に近づいた。
これらの結果から, 幾何条件付き拡散は, センサパイプラインを変更せずに, 閉塞性内装ポーズ推定に有効かつ監督効率の高い経路を提供することが示された。
コードは、github.com/navidTerraNova/GeoDiffPoseで入手できる。
関連論文リスト
- DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces [42.055572875282344]
DICArtは、条件付き離散拡散過程としてポーズ推定を定式化する新しいフレームワークである。
本稿では,各トークンを復号化するかリセットすべきかを動的に決定するフレキシブルフロー決定器を提案する。
合成データセットと実世界のデータセットの両方でDICArtを検証する。
論文 参考訳(メタデータ) (2026-02-23T07:30:47Z) - Robust Posterior Diffusion-based Sampling via Adaptive Guidance Scale [39.27744518020771]
逆プロブレム定式化のための拡散過程を導出する適応的確率ステップサイズ戦略を提案する。
結果として得られたアプローチであるAdaptive Posterior diffusion Smpling (AdaPS)は、ハイパーフリーであり、多様な画像タスクにおける再構成品質を改善する。
論文 参考訳(メタデータ) (2025-11-23T14:37:59Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。