論文の概要: SkeleGuide: Explicit Skeleton Reasoning for Context-Aware Human-in-Place Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.01579v1
- Date: Mon, 02 Mar 2026 08:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.753026
- Title: SkeleGuide: Explicit Skeleton Reasoning for Context-Aware Human-in-Place Image Synthesis
- Title(参考訳): SkeleGuide: コンテキスト認識型ヒューマン・イン・プレイス画像合成のための明示的なスケルトン推論
- Authors: Chuqiao Wu, Jin Song, Yiyun Fei,
- Abstract要約: SkeleGuideは明示的な骨格推論に基づいて構築された新しいフレームワークである。
SkeleGuideは、強力な構造的先行として機能する内部のポーズを生成することを学ぶ。
PoseInverterは、この内部潜伏ポーズを明示的で編集可能なフォーマットにデコードする。
- 参考スコア(独自算出の注目度): 3.734145313091892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating realistic and structurally plausible human images into existing scenes remains a significant challenge for current generative models, which often produce artifacts like distorted limbs and unnatural poses. We attribute this systemic failure to an inability to perform explicit reasoning over human skeletal structure. To address this, we introduce SkeleGuide, a novel framework built upon explicit skeletal reasoning. Through joint training of its reasoning and rendering stages, SkeleGuide learns to produce an internal pose that acts as a strong structural prior, guiding the synthesis towards high structural integrity. For fine-grained user control, we introduce PoseInverter, a module that decodes this internal latent pose into an explicit and editable format. Extensive experiments demonstrate that SkeleGuide significantly outperforms both specialized and general-purpose models in generating high-fidelity, contextually-aware human images. Our work provides compelling evidence that explicitly modeling skeletal structure is a fundamental step towards robust and plausible human image synthesis.
- Abstract(参考訳): 現実的で構造的に妥当な人間の画像を既存のシーンに生成することは、しばしば歪んだ手足や不自然なポーズのようなアーティファクトを生成する、現在の生成モデルにとって重要な課題である。
このシステム障害は、人間の骨格構造に対して明確な推論を行うことができないためである。
これを解決するために、明示的な骨格推論に基づいて構築された新しいフレームワークであるSkeleGuideを紹介する。
推論とレンダリングの段階を共同で訓練することで、SkeleGuideは、高い構造的整合性に向けて合成を導く、強い構造的先行として機能する内部的なポーズを作り出すことを学ぶ。
この内部の潜伏ポーズを明示的で編集可能なフォーマットにデコードするモジュールであるPoseInverterを導入する。
広範囲にわたる実験により、SkeleGuideは、高忠実で文脈的に認識された人間の画像を生成する際に、特殊モデルと汎用モデルの両方を著しく上回っていることが示された。
我々の研究は、骨格構造を明示的にモデル化することが、頑丈で可塑性な人間の画像合成への基本的なステップである、という説得力のある証拠を提供する。
関連論文リスト
- PALUM: Part-based Attention Learning for Unified Motion Retargeting [53.17113525688095]
異なる骨格構造を持つキャラクター間の反発は、コンピュータアニメーションの基本的な課題である。
多様な骨格トポロジーにまたがる共通の動き表現を学習する新しいアプローチを提案する。
実験は、運動リアリズムと意味的忠実性を維持しながら、多様な骨格構造を扱う上で優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-12T07:29:44Z) - Muses: Designing, Composing, Generating Nonexistent Fantasy 3D Creatures without Training [31.218706762957563]
Musesは、フィードフォワードパラダイムで素晴らしい3D生物を生成するための、トレーニング不要な最初の方法だ。
従来の手法は、部分認識の最適化、手動のアセンブリ、あるいは2D画像生成に依存しており、非現実的あるいは非コヒーレントな3Dアセットを生成することが多い。
論文 参考訳(メタデータ) (2026-01-06T18:59:57Z) - FastAnimate: Towards Learnable Template Construction and Pose Deformation for Fast 3D Human Avatar Animation [9.888999029415299]
3次元アバターアニメーションは、変形アルゴリズムを用いて、人間のアバターを初期ポーズから特定のターゲットポーズに変換することを目的としている。
既存のアプローチでは、このタスクを標準的なテンプレート構築とターゲットポーズ変形という2つのステージに分けるのが一般的である。
両課題を2つのフェーズで解決するための統合学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T09:28:50Z) - Motif Guided Graph Transformer with Combinatorial Skeleton Prototype Learning for Skeleton-Based Person Re-Identification [60.939250172443586]
3Dスケルトンデータによる人物再識別(re-ID)は多くのシナリオにおいて重要な価値を持つ課題である。
既存の骨格に基づく手法は、典型的には全ての関節間の仮想運動関係を仮定し、学習に平均的な関節またはシーケンス表現を採用する。
本稿では,Y Combinatorial skeleton prototype learning (MoCos)を用いた汎用Motifガイドグラフトランスフォーマを提案する。
MoCosは、構造特異的で歩行関連のある身体関係とスケルトングラフの特徴を利用して、人物のre-IDに効果的な骨格表現を学習する。
論文 参考訳(メタデータ) (2024-12-12T08:13:29Z) - GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation [7.0646249774097525]
本稿では,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。
拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。
PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T04:05:59Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Hierarchical Skeleton Meta-Prototype Contrastive Learning with Hard
Skeleton Mining for Unsupervised Person Re-Identification [70.90142717649785]
本稿では,HSM(Hard Skeleton Mining)を用いた階層型非教師付きメタプロトタイプコントラストラーニング(Hi-MPC)手法を提案する。
原原型を複数の同種変換を伴うメタプロトタイプに変換することにより,原型固有の一貫性を学習し,人体再IDのより効果的な骨格特徴を捉える。
論文 参考訳(メタデータ) (2023-07-24T16:18:22Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - Skeleton Prototype Contrastive Learning with Multi-Level Graph Relation
Modeling for Unsupervised Person Re-Identification [63.903237777588316]
3Dスケルトンによる人物再識別(re-ID)は多くの利点を持つ重要な話題である。
既存の解は骨格構造や運動における価値ある身体-成分関係を探索することは滅多にない。
本稿では,マルチレベルグラフ関係学習を用いた汎用的教師なし型コントラスト学習パラダイムを提案する。
論文 参考訳(メタデータ) (2022-08-25T00:59:32Z) - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose
Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。
提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文 参考訳(メタデータ) (2021-06-03T17:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。