論文の概要: RMGN: A Regional Mask Guided Network for Parser-free Virtual Try-on
- arxiv url: http://arxiv.org/abs/2204.11258v1
- Date: Sun, 24 Apr 2022 12:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 14:19:35.915935
- Title: RMGN: A Regional Mask Guided Network for Parser-free Virtual Try-on
- Title(参考訳): rmgn:パーサーフリー仮想トライオンのための地域マスク誘導ネットワーク
- Authors: Chao Lin, Zhao Li, Sheng Zhou, Shichang Hu, Jialun Zhang, Linhao Luo,
Jiarun Zhang, Longtao Huang, Yuan He
- Abstract要約: VTONは、eコマースで広く採用されている人物画像の参照に対象の衣服を合わせることを目的としている。
既存のVTONアプローチは狭義に分類できる。
-PBおよびPB。
-フリー(PF)
地域マスクガイドネットワーク(RMGN)という新しいPF手法を提案する。
- 参考スコア(独自算出の注目度): 23.198926150193472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual try-on(VTON) aims at fitting target clothes to reference person
images, which is widely adopted in e-commerce.Existing VTON approaches can be
narrowly categorized into Parser-Based(PB) and Parser-Free(PF) by whether
relying on the parser information to mask the persons' clothes and synthesize
try-on images. Although abandoning parser information has improved the
applicability of PF methods, the ability of detail synthesizing has also been
sacrificed. As a result, the distraction from original cloth may persistin
synthesized images, especially in complicated postures and high resolution
applications. To address the aforementioned issue, we propose a novel PF method
named Regional Mask Guided Network(RMGN). More specifically, a regional mask is
proposed to explicitly fuse the features of target clothes and reference
persons so that the persisted distraction can be eliminated. A posture
awareness loss and a multi-level feature extractor are further proposed to
handle the complicated postures and synthesize high resolution images.
Extensive experiments demonstrate that our proposed RMGN outperforms both
state-of-the-art PB and PF methods.Ablation studies further verify the
effectiveness ofmodules in RMGN.
- Abstract(参考訳): VTON(Virtual try-on)は,電子商取引において広く採用されている人物画像に対象の衣服を合わせることを目的としており,既存のVTONアプローチをパーサーベース(PB)とパーサーフリー(PF)に狭義に分類することができる。
パーサ情報を放棄することでPF法の適用性が向上したが、詳細な合成能力も犠牲にされている。
結果として、合成された画像、特に複雑な姿勢や高分解能の用途において、原布からの逸脱が持続する可能性がある。
上記の課題に対処するため,地域マスクガイドネットワーク(RMGN)という新しいPF手法を提案する。
より具体的には、対象の衣服と参照者の特徴を明示的に融合させ、持続した気晴らしをなくすための地域マスクが提案されている。
さらに,複雑な姿勢を処理し,高分解能画像を合成するために,姿勢認識損失と多レベル特徴抽出器を提案する。
広範な実験により,提案するrmgnは最先端pb法とpf法の両方に勝ることを示し,rmgnにおけるモジュールの有効性をさらに検証した。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。
提案手法は,最先端性能とゼロショット能力に優れる。
論文 参考訳(メタデータ) (2024-05-17T11:29:23Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - PFDM: Parser-Free Virtual Try-on via Diffusion Model [28.202996582963184]
拡散モデル(PFDM)に基づく自由仮想試行法を提案する。
2つの画像が与えられた場合、PFDMは、他の情報なしで暗黙的にワープすることで、標的人物の衣服をシームレスに「着る」ことができる。
実験により,提案したPFDMは複雑な画像の処理に成功し,最先端の最先端モデルと高忠実度モデルの両方より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-05T14:32:57Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z) - TransRPPG: Remote Photoplethysmography Transformer for 3D Mask Face
Presentation Attack Detection [53.98866801690342]
3次元マスク提示攻撃検出(PAD)は、3次元マスク攻撃から顔認識システムを保護する上で重要な役割を担っている。
ライブ本質表現を効率的に学習するための純粋なrトランス(TransR)フレームワークを提案する。
当社のTransRは軽量で効率的(547Kパラメータと763MOPのみ)で、モバイルレベルのアプリケーションに期待できる。
論文 参考訳(メタデータ) (2021-04-15T12:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。