論文の概要: Pose-Star: Anatomy-Aware Editing for Open-World Fashion Images
- arxiv url: http://arxiv.org/abs/2507.03402v1
- Date: Fri, 04 Jul 2025 09:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.718497
- Title: Pose-Star: Anatomy-Aware Editing for Open-World Fashion Images
- Title(参考訳): Pose-Star:オープンワールドファッション画像のための解剖学的認識編集
- Authors: Yuran Dong, Mang Ye,
- Abstract要約: 本稿では,身体構造を解剖学的マスクに再構成してユーザ定義の編集を行うフレームワークPose-Starを提案する。
Pose-Starでは、複雑なポーズにおけるレアな構造局在を高めるために、骨格キーポイントを介して拡散に由来する注意を校正する。
この作業ブリッジは、ベンチマークとオープンワールドの要求を制御し、解剖学的認識の先駆者となり、ポーズ・ロバストな編集と産業ファッション画像編集の基礎を築き上げた。
- 参考スコア(独自算出の注目度): 36.360995866206984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To advance real-world fashion image editing, we analyze existing two-stage pipelines(mask generation followed by diffusion-based editing)which overly prioritize generator optimization while neglecting mask controllability. This results in two critical limitations: I) poor user-defined flexibility (coarse-grained human masks restrict edits to predefined regions like upper torso; fine-grained clothes masks preserve poses but forbid style/length customization). II) weak pose robustness (mask generators fail due to articulated poses and miss rare regions like waist, while human parsers remain limited by predefined categories). To address these gaps, we propose Pose-Star, a framework that dynamically recomposes body structures (e.g., neck, chest, etc.) into anatomy-aware masks (e.g., chest-length) for user-defined edits. In Pose-Star, we calibrate diffusion-derived attention (Star tokens) via skeletal keypoints to enhance rare structure localization in complex poses, suppress noise through phase-aware analysis of attention dynamics (Convergence,Stabilization,Divergence) with threshold masking and sliding-window fusion, and refine edges via cross-self attention merging and Canny alignment. This work bridges controlled benchmarks and open-world demands, pioneering anatomy-aware, pose-robust editing and laying the foundation for industrial fashion image editing.
- Abstract(参考訳): 実世界のファッション画像編集を進めるために,マスク制御性を無視したまま,ジェネレータの最適化を過度に優先する既存の2段階のパイプライン(マスク生成と拡散ベース編集)を分析した。
I) ユーザ定義の柔軟性に乏しい(粗い人間のマスクは、上部胴体のような事前に定義された領域に編集を制限し、きめ細かい衣服マスクはポーズを保ちながら、スタイル/長さのカスタマイズを禁じる)。
II) 弱いポーズの頑丈さ(マスクジェネレータは明瞭なポーズのために失敗し、腰のような稀な領域を逃すが、人間のパーサーは未定義のカテゴリによって制限される)。
これらのギャップに対処するために,Pose-Starを提案する。このフレームワークは,身体構造(例えば,首,胸など)を解剖学的マスク(例えば,胸の長さ)に動的に再構成し,ユーザ定義の編集を行う。
Pose-Starでは、複雑なポーズにおけるレアな構造局在を高めるために、骨格キーポイントを介して拡散誘導注意(スタートークン)を校正し、閾値マスキングとスライディングウインドウ融合による注意動態(収束、安定化、ダイバージェンス)の位相認識解析によるノイズを抑える。
この作業ブリッジは、ベンチマークとオープンワールドの要求を制御し、解剖学的認識の先駆者となり、ポーズ・ロバストな編集と産業ファッション画像編集の基礎を築き上げた。
関連論文リスト
- DAGSM: Disentangled Avatar Generation with GS-enhanced Mesh [102.84518904896737]
DAGSMは、与えられたテキストプロンプトから歪んだ人体と衣服を生成する新しいパイプラインである。
まず着ていない体を作り、次に体に基づいて個々の布を生成します。
実験では、DAGSMは高品質なアンタングルアバターを生成し、衣服の交換とリアルなアニメーションをサポートし、視覚的品質においてベースラインを上回っている。
論文 参考訳(メタデータ) (2024-11-20T07:00:48Z) - MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion [22.62170098534097]
人間の2次元ポーズと表情の拡散に基づくモデルであるMagicPoseを提案する。
画像拡散モデルの事前の知識を活用することで、MagicPoseは目に見えない人間のアイデンティティや複雑なポーズをうまく一般化する。
提案したモデルは使いやすく、安定拡散に対するプラグインモジュール/拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-11-18T10:22:44Z) - $S^2$-Flow: Joint Semantic and Style Editing of Facial Images [16.47093005910139]
GAN(Generative Adversarial Network)は、画像編集への応用に関する調査をモチベーションとしている。
GANは特定の編集を行うために提供されるコントロールに制限されることが多い。
本稿では,GAN$text'$s潜在空間を意味空間とスタイル空間に分解する手法を提案する。
論文 参考訳(メタデータ) (2022-11-22T12:00:02Z) - Collecting The Puzzle Pieces: Disentangled Self-Driven Human Pose
Transfer by Permuting Textures [22.559691018559697]
自己駆動型人間のポーズ伝達手法であるPT$2$のPose Transferを提案する。
具体的には, テクスチャ情報のみを残せるように, 画像パッチを置換することで, 入力画像からポーズを除去する。
そこで我々は,マルチカーネルサイズエンコーダをトリプルブランチネットワークに採用した。
論文 参考訳(メタデータ) (2022-10-04T20:14:47Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z) - Reference-guided Face Component Editing [51.29105560090321]
本稿では,多様かつ制御可能な顔コンポーネント編集のためのr-FACE (Reference-guided FAce Component Editing) という新しいフレームワークを提案する。
具体的には、r-FACEは、顔成分の形状を制御する条件として参照画像を利用して、画像の塗装モデルをバックボーンとして利用する。
フレームワークが対象の顔成分に集中するよう促すため、基準画像から抽出した注目特徴と対象の顔成分特徴とを融合させるために、サンプル誘導注意モジュールが設計されている。
論文 参考訳(メタデータ) (2020-06-03T05:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。