論文の概要: Image-Based Virtual Try-On: A Survey
- arxiv url: http://arxiv.org/abs/2311.04811v4
- Date: Tue, 3 Sep 2024 03:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:14:48.308006
- Title: Image-Based Virtual Try-On: A Survey
- Title(参考訳): 画像ベースのバーチャルトライオン:サーベイ
- Authors: Dan Song, Xuanpu Zhang, Juan Zhou, Weizhi Nie, Ruofeng Tong, Mohan Kankanhalli, An-An Liu,
- Abstract要約: 画像ベースの仮想試着は、自然に着飾った人物画像を衣服のイメージで合成することを目的としており、オンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激する。
本稿では,パイプラインアーキテクチャ,人物表現,トライオン表示,衣料品のワープ,トライオンステージといった重要なモジュールの側面において,最先端技術と方法論を包括的に分析する。
さらに、CLIPを用いて試行結果のセマンティックアライメントを評価し、同じデータセット上で一様に実装された評価指標を用いて代表手法を評価する。
- 参考スコア(独自算出の注目度): 38.6177665201224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based virtual try-on aims to synthesize a naturally dressed person image with a clothing image, which revolutionizes online shopping and inspires related topics within image generation, showing both research significance and commercial potential. However, there is a gap between current research progress and commercial applications and an absence of comprehensive overview of this field to accelerate the development.In this survey, we provide a comprehensive analysis of the state-of-the-art techniques and methodologies in aspects of pipeline architecture, person representation and key modules such as try-on indication, clothing warping and try-on stage. We additionally apply CLIP to assess the semantic alignment of try-on results, and evaluate representative methods with uniformly implemented evaluation metrics on the same dataset.In addition to quantitative and qualitative evaluation of current open-source methods, unresolved issues are highlighted and future research directions are prospected to identify key trends and inspire further exploration. The uniformly implemented evaluation metrics, dataset and collected methods will be made public available at https://github.com/little-misfit/Survey-Of-Virtual-Try-On.
- Abstract(参考訳): 画像ベースの仮想試着は、自然に着飾った人物画像を衣服画像で合成することを目的としており、これはオンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激し、研究の意義と商業的可能性の両方を示す。
しかし、現在の研究の進展と商業的応用の間にはギャップがあり、開発を加速するためにこの分野の総合的な概要が欠如している。本調査では、パイプラインアーキテクチャ、人物表現、試着表示、衣料のワープ、試着ステージといった重要なモジュールの側面における最先端技術と方法論を包括的に分析する。
また、CLIPを用いて試行結果のセマンティックアライメントを評価し、同じデータセット上で一様に実装された評価指標を用いた代表的手法の評価を行い、また、現在のオープンソース手法の定量的かつ質的な評価に加えて、未解決の問題が強調され、今後の研究方向が重要トレンドの特定とさらなる探索を促すことが期待されている。
均一に実装された評価メトリクス、データセット、収集されたメソッドはhttps://github.com/little-misfit/Survey-Of-Virtual-Try-Onで公開される。
関連論文リスト
- Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions [6.2719115566879236]
拡散モデル(DM)は画像データ拡張のための強力なツールとして登場した。
DMは、基礎となるデータ分布を学習することで、現実的で多様な画像を生成する。
この分野における現在の課題と今後の研究方向性について論じる。
論文 参考訳(メタデータ) (2024-07-04T18:06:48Z) - Cross-view geo-localization: a survey [1.3686993145787065]
クロスビューなジオローカライゼーションは、コンピュータビジョンの領域で注目を浴びている。
本稿では,この領域に不可欠な最先端の方法論,技法,および関連する課題について,徹底的な調査を行う。
論文 参考訳(メタデータ) (2024-06-14T05:14:54Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Local Feature Matching Using Deep Learning: A Survey [19.322545965903608]
局所的な特徴マッチングは、画像検索、3D再構成、オブジェクト認識といった領域を含むコンピュータビジョンの領域において幅広い応用を享受する。
近年,深層学習モデルの導入により,局所的特徴マッチング手法の探究が盛んに行われている。
また,移動構造,リモートセンシング画像登録,医用画像登録などの多様な領域における局所的特徴マッチングの実践的応用についても検討した。
論文 参考訳(メタデータ) (2024-01-31T04:32:41Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Robust Visual Question Answering: Datasets, Methods, and Future
Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文 参考訳(メタデータ) (2023-07-21T10:12:09Z) - Dataset and Case Studies for Visual Near-Duplicates Detection in the
Context of Social Media [11.569861200214294]
視覚的に類似したコンテンツの追跡は、そのようなコンテンツの拡散に関連する社会現象を研究・分析する上で重要な課題である。
ソーシャルメディア画像のデータセットを構築し、画像検索といくつかの高度な視覚特徴抽出手法に基づいて視覚近距離検索手法を評価する。
論文 参考訳(メタデータ) (2022-03-14T15:10:30Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。