論文の概要: InstructVTON: Optimal Auto-Masking and Natural-Language-Guided Interactive Style Control for Inpainting-Based Virtual Try-On
- arxiv url: http://arxiv.org/abs/2509.20524v1
- Date: Wed, 24 Sep 2025 19:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.575448
- Title: InstructVTON: Optimal Auto-Masking and Natural-Language-Guided Interactive Style Control for Inpainting-Based Virtual Try-On
- Title(参考訳): InstructVTON: ペイントベースのバーチャルトライオンのための最適自動加工と自然な言語誘導型インタラクティブスタイル制御
- Authors: Julien Han, Shuwen Qiu, Qi Li, Xingzi Xu, Mehmet Saygin Seyfioglu, Kavosh Asadi, Karim Bouyarmane,
- Abstract要約: InstructVTONは命令追従型の対話型仮想試行システムで、細粒度で複雑なスタイリング制御を可能にする。
InstructVTONは既存の仮想試行モデルと相互運用可能であることを示す。
- 参考スコア(独自算出の注目度): 14.933656938155956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present InstructVTON, an instruction-following interactive virtual try-on system that allows fine-grained and complex styling control of the resulting generation, guided by natural language, on single or multiple garments. A computationally efficient and scalable formulation of virtual try-on formulates the problem as an image-guided or image-conditioned inpainting task. These inpainting-based virtual try-on models commonly use a binary mask to control the generation layout. Producing a mask that yields desirable result is difficult, requires background knowledge, might be model dependent, and in some cases impossible with the masking-based approach (e.g. trying on a long-sleeve shirt with "sleeves rolled up" styling on a person wearing long-sleeve shirt with sleeves down, where the mask will necessarily cover the entire sleeve). InstructVTON leverages Vision Language Models (VLMs) and image segmentation models for automated binary mask generation. These masks are generated based on user-provided images and free-text style instructions. InstructVTON simplifies the end-user experience by removing the necessity of a precisely drawn mask, and by automating execution of multiple rounds of image generation for try-on scenarios that cannot be achieved with masking-based virtual try-on models alone. We show that InstructVTON is interoperable with existing virtual try-on models to achieve state-of-the-art results with styling control.
- Abstract(参考訳): InstructVTONはインストラクションを追従する対話型仮想試行システムであり、単一の衣服や複数の衣服に自然言語で導かれる結果生成の細粒度で複雑なスタイリング制御を可能にする。
仮想トライオンの計算効率が高くスケーラブルな定式化は、問題を画像誘導型または画像調和型インペイントタスクとして定式化する。
これらの塗装ベースの仮想試行モデルは、通常、生成レイアウトを制御するためにバイナリマスクを使用する。
望ましい結果をもたらすマスクの作成は困難であり、背景知識が必要であり、モデル依存である場合もあり、マスクベースのアプローチでは不可能である場合もある(例えば、長袖のシャツに袖を下にした「袖を巻いた」長袖のシャツを試すと、マスクが必ず袖全体を覆う)。
InstructVTONは視覚言語モデル(VLM)とイメージセグメンテーションモデルを利用して自動二項マスク生成を行う。
これらのマスクは、ユーザが提供する画像と自由テキストスタイルの命令に基づいて生成される。
InstructVTONは、正確に描画されたマスクの必要性を排除し、マスクベースの仮想試行モデルだけでは達成できない試行シナリオに対して、複数の画像生成の実行を自動化することで、エンドユーザエクスペリエンスを単純化する。
InstructVTONは既存の仮想試行モデルと相互運用可能であることを示す。
関連論文リスト
- MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input [69.33864837012202]
本研究では,一人のイメージとターゲット衣服のみを用いて,現実的なVITONを実現するMask-Free VITONフレームワークを提案する。
既存のMaskベースのVITONモデルを利用して高品質なデータセットを合成する。
このデータセットには、多様で現実的な人物画像とそれに対応する衣服が含まれており、背景も様々で、現実世界のシナリオを模倣している。
論文 参考訳(メタデータ) (2025-03-11T17:40:59Z) - High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。
低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training [32.77901123889236]
近年の仮想試行法は、人物画像のマスキングを必要とするイメージマスク・インペイントタスクとしてモデル化されている。
本研究は,マスクレスアプローチにより,人物画像からの空間的・照明的情報を完全に活用できることを見出した。
マスクのない仮想トライオン拡散モデルであるBooW-VTONを導入する。
論文 参考訳(メタデータ) (2024-08-12T10:39:59Z) - Automatic Generation of Semantic Parts for Face Image Synthesis [7.728916126705043]
セグメンテーションマスクにおけるオブジェクトクラスの形状を自動操作または生成する問題に対処するネットワークアーキテクチャについて述べる。
提案モデルでは,各クラス埋め込みを独立して編集可能な潜在空間にマスクのクラスワイズを埋め込むことができる。
本稿では,Celeb-MaskHQデータセットの定量的および定性的な結果について報告する。
論文 参考訳(メタデータ) (2023-07-11T15:01:42Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。