論文の概要: Learning 3D Texture-Aware Representations for Parsing Diverse Human Clothing and Body Parts
- arxiv url: http://arxiv.org/abs/2508.06032v1
- Date: Fri, 08 Aug 2025 05:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.089154
- Title: Learning 3D Texture-Aware Representations for Parsing Diverse Human Clothing and Body Parts
- Title(参考訳): 3次元テクスチャ認識表現の学習 : 異物と身体部分のパーシング
- Authors: Kiran Chhatre, Christopher Peters, Srikrishna Karanam,
- Abstract要約: 本稿では,部分レベルのピクセル解析(身体部分と衣服)とインスタンスレベルのグループ化のための統一ネットワークを提案する。
入力画像から,I2Tx拡散モデルを用いて人体内部の特徴を抽出する。
トレーニングが完了すると、Spectrumは、目に見える身体の部分と衣服のカテゴリごとにセマンティックセグメンテーションマップを生成する。
- 参考スコア(独自算出の注目度): 8.437329554946906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for human parsing into body parts and clothing often use fixed mask categories with broad labels that obscure fine-grained clothing types. Recent open-vocabulary segmentation approaches leverage pretrained text-to-image (T2I) diffusion model features for strong zero-shot transfer, but typically group entire humans into a single person category, failing to distinguish diverse clothing or detailed body parts. To address this, we propose Spectrum, a unified network for part-level pixel parsing (body parts and clothing) and instance-level grouping. While diffusion-based open-vocabulary models generalize well across tasks, their internal representations are not specialized for detailed human parsing. We observe that, unlike diffusion models with broad representations, image-driven 3D texture generators maintain faithful correspondence to input images, enabling stronger representations for parsing diverse clothing and body parts. Spectrum introduces a novel repurposing of an Image-to-Texture (I2Tx) diffusion model -- obtained by fine-tuning a T2I model on 3D human texture maps -- for improved alignment with body parts and clothing. From an input image, we extract human-part internal features via the I2Tx diffusion model and generate semantically valid masks aligned to diverse clothing categories through prompt-guided grounding. Once trained, Spectrum produces semantic segmentation maps for every visible body part and clothing category, ignoring standalone garments or irrelevant objects, for any number of humans in the scene. We conduct extensive cross-dataset experiments -- separately assessing body parts, clothing parts, unseen clothing categories, and full-body masks -- and demonstrate that Spectrum consistently outperforms baseline methods in prompt-based segmentation.
- Abstract(参考訳): 既存の人体を体の部分や衣服にパースする方法では、細粒度が不明瞭な広いラベルで固定マスクのカテゴリを使用することが多い。
最近のオープン・ボキャブラリ・セグメンテーション・アプローチは、訓練済みのテキスト・トゥ・イメージ(T2I)拡散モデルを利用して強力なゼロショット・トランスファーを行うが、典型的には人間全体を1人のカテゴリーに分類する。
そこで本研究では,部分レベルのピクセル解析(身体部分と衣服)とインスタンスレベルのグループ化のための統一ネットワークであるSpectrumを提案する。
拡散に基づくオープン語彙モデルはタスク全体にわたってよく一般化されるが、内部表現は人間の詳細な解析に特化していない。
広い表現を持つ拡散モデルとは異なり、画像駆動型3Dテクスチャジェネレータは入力画像との忠実な対応を維持し、多様な衣服や身体部品を解析するためのより強力な表現を可能にする。
Spectrumは3次元のテクスチャマップ上でT2Iモデルを微調整することで得られる、画像からテクスチャへの拡散モデル(I2Tx)の新たな再利用を導入し、身体の部分や衣服との整合性を改善している。
入力画像から,I2Tx拡散モデルを用いて人間の部分的内部特徴を抽出し,プロンプト誘導グラウンドリングにより,多様な衣服カテゴリーに対応する意味論的に有効なマスクを生成する。
トレーニングが完了すると、Spectrumは、シーン内のあらゆる数の人間に対して、スタンドアローンの衣服や無関係な物体を無視して、目に見える身体の部分と衣服のカテゴリごとにセマンティックセグメンテーションマップを作成する。
我々は、広範囲にわたるクロスデータセット実験を行い、身体部分、衣服部分、見えない衣服カテゴリー、フルボディマスクを別々に評価し、Spectrumがプロンプトベースのセグメンテーションにおいてベースライン手法を一貫して上回っていることを示す。
関連論文リスト
- Point cloud segmentation for 3D Clothed Human Layering [1.0074626918268836]
3Dクロースモデリングとシミュレーションは、ファッション、エンターテイメント、アニメーションなど、いくつかの分野でアバターの作成に不可欠である。
本稿では,各3次元点を異なる層に同時に関連付けることのできる,新しい3次元点雲分割パラダイムを提案する。
私たちは、非常にリアルな3Dスキャンを、関連する衣服層の基礎的な真実でシミュレートする、新しい合成データセットを作成します。
論文 参考訳(メタデータ) (2025-08-07T16:02:15Z) - Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On [89.9123806553489]
拡散モデルは仮想試行(VTON)タスクで成功している。
この問題は、拡散モデルの本質性により、与えられた衣服の形状や細部を保存することは依然として困難である。
本稿では,視力の拡散前処理として視覚的対応を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2025-05-22T17:52:13Z) - Progressive Limb-Aware Virtual Try-On [14.334222729238608]
既存の画像ベースの仮想試着手法は、特定の衣服を直接人間の画像に転送する。
本稿では, PL-VTON という, プログレッシブな仮想試着フレームワークを提案する。
また,肢領域における高品質な細部を推定するための肢認識型テクスチャフュージョンモジュールを提案する。
論文 参考訳(メタデータ) (2025-03-16T17:41:02Z) - Text-guided 3D Human Generation from 2D Collections [69.04031635550294]
本稿では,テクスト誘導型3Dヒューマンジェネレーション(texttT3H)について紹介する。
CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。
我々はDeepFashionとSHHQで、上着と下着の形状、生地、色を多彩なファッション特性で評価する。
論文 参考訳(メタデータ) (2023-05-23T17:50:15Z) - BodyMap: Learning Full-Body Dense Correspondence Map [19.13654133912062]
BodyMapは,人体内画像と3Dテンプレートモデルの表面との間の高精細かつ連続的な対応関係を得るための新しいフレームワークである。
人間間の複雑な対応は、身体全体を理解するための基本的な問題を解決するために利用できる強力な意味情報を運ぶ。
論文 参考訳(メタデータ) (2022-05-18T17:58:11Z) - gDNA: Towards Generative Detailed Neural Avatars [94.9804106939663]
我々のモデルでは,多様で詳細な衣服を身に着けた自然の人間のアバターを生成できることが示されている。
本手法は,人間のモデルを生のスキャンに適合させる作業に使用することができ,従来の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-01-11T18:46:38Z) - Arbitrary Virtual Try-On Network: Characteristics Preservation and
Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。
AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。
提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文 参考訳(メタデータ) (2021-11-24T08:59:56Z) - HumanGAN: A Generative Model of Humans Images [78.6284090004218]
本研究では,ポーズ,局所的な身体部分の外観,衣料品スタイルを制御できる服装者の画像生成モデルを提案する。
本モデルでは,正規化されたポーズ非依存空間に部分的潜在性出現ベクトルをエンコードし,異なるポーズに誘導し,様々な姿勢で身体や衣服の外観を保っている。
論文 参考訳(メタデータ) (2021-03-11T19:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。