論文の概要: Parser-Free Virtual Try-on via Distilling Appearance Flows
- arxiv url: http://arxiv.org/abs/2103.04559v2
- Date: Tue, 9 Mar 2021 05:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 12:23:09.692361
- Title: Parser-Free Virtual Try-on via Distilling Appearance Flows
- Title(参考訳): 蒸留外観流によるパーサーフリー仮想試行
- Authors: Yuying Ge, Yibing Song, Ruimao Zhang, Chongjian Ge, Wei Liu and Ping
Luo
- Abstract要約: Image Virtual try-onは、衣料品画像(ターゲット服)を人物画像に合わせることを目的としている。
以前の手法は人間の解析に基づいている。
不正確な解析ミスリード法により、視覚的に非現実的な結果を生成する。
- 参考スコア(独自算出の注目度): 44.808125688185804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image virtual try-on aims to fit a garment image (target clothes) to a person
image. Prior methods are heavily based on human parsing. However,
slightly-wrong segmentation results would lead to unrealistic try-on images
with large artifacts. Inaccurate parsing misleads parser-based methods to
produce visually unrealistic results where artifacts usually occur. A recent
pioneering work employed knowledge distillation to reduce the dependency of
human parsing, where the try-on images produced by a parser-based method are
used as supervisions to train a "student" network without relying on
segmentation, making the student mimic the try-on ability of the parser-based
model. However, the image quality of the student is bounded by the parser-based
model. To address this problem, we propose a novel approach,
"teacher-tutor-student" knowledge distillation, which is able to produce highly
photo-realistic images without human parsing, possessing several appealing
advantages compared to prior arts. (1) Unlike existing work, our approach
treats the fake images produced by the parser-based method as "tutor
knowledge", where the artifacts can be corrected by real "teacher knowledge",
which is extracted from the real person images in a self-supervised way. (2)
Other than using real images as supervisions, we formulate knowledge
distillation in the try-on problem as distilling the appearance flows between
the person image and the garment image, enabling us to find accurate dense
correspondences between them to produce high-quality results. (3) Extensive
evaluations show large superiority of our method (see Fig. 1).
- Abstract(参考訳): Image Virtual try-onは、衣料品画像(ターゲット服)を人物画像に合わせることを目的としている。
以前の手法は人間の解析に基づいている。
しかし、わずかに短いセグメンテーションの結果は、大きなアーティファクトを持つ非現実的な試行画像に繋がる。
不正確な解析ミスリードは、アーティファクトが通常発生する視覚的に非現実的な結果を生成するパーサベースの方法である。
近年の先駆的な研究は、知識蒸留を人間のパーシングの依存性を減らし、パーサーベースの手法による試行画像は、セグメンテーションに頼らずに「学生」ネットワークを訓練する監督役として使われ、パーサーベースのモデルの試行能力を模倣するものである。
しかし、学生の画質はパーサーベースのモデルによって制限されます。
そこで本研究では,人間による解析を伴わずに高度に写真実写的な画像を生成することが可能な「教師-教師-学生」知識蒸留法を提案する。
1)既存の研究とは違って,本手法では,実物は実物から自己管理的に抽出した「教師の知識」によって修正できる「教師の知識」として,パーザベースの手法で作成した偽画像を扱う。
2) 実像を監督対象として使用する以外に, 被写体画像と衣服画像の出現フローを蒸留する手段として, 試行問題における知識蒸留を定式化し, それらの間の正確な密接な対応を見つけ, 高品質な結果が得られるようにした。
(3)広範囲な評価は,本手法の優位性が高い(図参照)。
1).
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images [34.02058539403381]
我々は、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。
予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
論文 参考訳(メタデータ) (2024-03-13T19:56:30Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。
本稿では,新たな視点から生成した画像検出問題にアプローチする。
実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文 参考訳(メタデータ) (2023-11-02T03:09:37Z) - Self-Adaptively Learning to Demoire from Focused and Defocused Image
Pairs [97.67638106818613]
モアレアーティファクトはデジタル写真では一般的であり、高周波シーンコンテンツとカメラのカラーフィルタアレイとの干渉によるものである。
大規模反復で訓練された既存のディープラーニングに基づく復習手法は、様々な複雑なモアレパターンを扱う場合に限られる。
本稿では,高頻度画像の復調のための自己適応学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T23:09:02Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Just Noticeable Difference for Machines to Generate Adversarial Images [0.34376560669160383]
提案手法は、Just Noticeable differenceと呼ばれる実験心理学の一般的な概念に基づいている。
本研究で生成した対向画像は, 対向画像生成装置の出力と比較すると, より自然なように見える。
論文 参考訳(メタデータ) (2020-01-29T19:42:35Z) - Learning Transformation-Aware Embeddings for Image Forensics [15.484408315588569]
Image Provenance Analysisは、コンテンツを共有するさまざまな操作されたイメージバージョン間の関係を見つけることを目的としている。
証明分析のための主要なサブプロブレムの1つは、完全なコンテンツを共有したり、ほぼ重複している画像の編集順序である。
本稿では,1つの画像から生成した画像に対して,変換を通じて妥当な順序付けを行うための,新しい深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-13T22:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。