論文の概要: Efficient Encoder-Free Pose Conditioning and Pose Control for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2509.20343v1
- Date: Wed, 24 Sep 2025 17:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.925202
- Title: Efficient Encoder-Free Pose Conditioning and Pose Control for Virtual Try-On
- Title(参考訳): 仮想トライオンのための効率的なエンコーダフリーポースコンディショニングとポース制御
- Authors: Qi Li, Shuwen Qiu, Julien Han, Xingzi Xu, Mehmet Saygin Seyfioglu, Kee Kiat Koo, Karim Bouyarmane,
- Abstract要約: 我々は,外部エンコーダや制御ネットワーク,複雑な注意層を使わずに,基準画像条件をオーバーレイすることで,ベースラインVTONモデルを構築する。
ポーズデータを空間的に結合することで、ポーズ制御をこの純粋連結パラダイムに組み込む方法を検討する。
ポーズマップを用いたポーズステッチは、ポーズ保存と出力リアリズムの両方を強化し、最良の結果をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 11.550777201655393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As online shopping continues to grow, the demand for Virtual Try-On (VTON) technology has surged, allowing customers to visualize products on themselves by overlaying product images onto their own photos. An essential yet challenging condition for effective VTON is pose control, which ensures accurate alignment of products with the user's body while supporting diverse orientations for a more immersive experience. However, incorporating pose conditions into VTON models presents several challenges, including selecting the optimal pose representation, integrating poses without additional parameters, and balancing pose preservation with flexible pose control. In this work, we build upon a baseline VTON model that concatenates the reference image condition without external encoder, control network, or complex attention layers. We investigate methods to incorporate pose control into this pure concatenation paradigm by spatially concatenating pose data, comparing performance using pose maps and skeletons, without adding any additional parameters or module to the baseline model. Our experiments reveal that pose stitching with pose maps yields the best results, enhancing both pose preservation and output realism. Additionally, we introduce a mixed-mask training strategy using fine-grained and bounding box masks, allowing the model to support flexible product integration across varied poses and conditions.
- Abstract(参考訳): オンラインショッピングが成長するにつれて、仮想トライオン(VTON)技術への需要が急増し、顧客は自分の写真に商品イメージをオーバーレイすることで、商品を自身で視覚化することができるようになった。
効果的なVTONのための必須かつ困難な条件は、より没入感のあるエクスペリエンスのために多様な向きをサポートしながら、製品のユーザの体との正確なアライメントを保証する、ポーズ制御である。
しかしながら、VTONモデルにポーズ条件を組み込むことは、最適なポーズ表現の選択、追加パラメータなしでポーズを統合すること、フレキシブルポーズ制御によるポーズ保存のバランスなど、いくつかの課題を提示している。
本研究では,外部エンコーダや制御ネットワーク,複雑な注意層を使わずに参照画像条件を結合するベースラインVTONモデルを構築した。
本研究では,ポーズマップとスケルトンを用いた性能の比較を行い,さらにパラメータやモジュールをベースラインモデルに追加することなく,ポーズデータを空間的に結合することで,ポーズ制御をこの純粋連結パラダイムに組み込む手法について検討する。
提案実験により,ポーズマップを用いたポーズ縫合が最高の結果をもたらすことが明らかとなり,ポーズ保存と出力リアリズムの両立が図られた。
さらに、細粒度でバウンディングなボックスマスクを用いた混合マスクトレーニング戦略を導入し、さまざまなポーズや条件にまたがるフレキシブルな製品統合を支援する。
関連論文リスト
- OmniVTON: Training-Free Universal Virtual Try-On [53.31945401098557]
イメージベースの仮想トライオン(VTON)技術は、適応性を改善するが、データバイアスと制限された普遍性によって制約される、教師付きインショップアプローチまたは教師なしインザワイルド手法のいずれかに依存している。
OmniVTONは,布地を疎結合にし,テクスチャの忠実さを両立させ,多様な設定に整合性を持たせるための条件付けを行う,初めてのトレーニングフリーユニバーサルVTONフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T16:37:53Z) - PosePilot: Steering Camera Pose for Generative World Models with Self-supervised Depth [9.737257599532956]
生成的世界モデルにおけるカメラポーズ制御性を著しく向上する軽量かつ強力なフレームワークであるPosePilotを紹介する。
具体的には、自己教師付き深度と読み出しのポーズを組み、ビデオシーケンスから直接深度と相対カメラの動きを推測する。
自律運転と一般ドメインのビデオデータセットの実験は、PosePilotが構造的理解とモーション推論を大幅に強化することを示した。
論文 参考訳(メタデータ) (2025-05-03T07:51:46Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text [11.85544970521423]
画像品質を向上させるためにDiffusion Transformer (DiT) をジェネレータとして利用する ITVTON を導入する。
ITVTONは、空間チャネルに沿って衣服や人物画像を縫い合わせることにより、衣服と人物の相互作用を改善する。
単一拡散変圧器(Single-DiT)ブロック内の注意パラメータに対する訓練を制約する。
論文 参考訳(メタデータ) (2025-01-28T07:24:15Z) - ODPG: Outfitting Diffusion with Pose Guided Condition [2.5602836891933074]
VTON技術は、物理的に試すことなく、服がどのように見えるかを視覚化する。
GAN(Geneversarative Adrial Networks)と拡散モデル(Diffusion model)を用いた従来のVTON手法は、高いリアリズムの実現と動的なポーズの処理において課題に直面している。
本稿では,複数の条件入力を持つ潜伏拡散モデルを利用した新しい手法であるFOPS(Outfitting Diffusion with Pose Guided Condition)を提案する。
論文 参考訳(メタデータ) (2025-01-12T10:30:27Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation [32.190055780969466]
Stable-Poseは、粗い注目マスキング戦略を視覚変換器に導入する新しいアダプタモデルである。
我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。
Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
論文 参考訳(メタデータ) (2024-06-04T16:54:28Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:17:42Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。