論文の概要: Image-Based Virtual Try-On: A Survey
- arxiv url: http://arxiv.org/abs/2311.04811v1
- Date: Wed, 8 Nov 2023 16:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:11:19.202388
- Title: Image-Based Virtual Try-On: A Survey
- Title(参考訳): イメージベース仮想トライオン:調査
- Authors: Dan Song, Xuanpu Zhang, Juan Zhou, Weizhi Nie, Ruofeng Tong and An-An
Liu
- Abstract要約: 画像ベースの仮想試着は、自然に着飾った人物画像を衣服のイメージで合成することを目的としており、オンラインショッピングに革命をもたらす。
本稿では,パイプラインアーキテクチャ,人物表現,トライオン表示などの重要なモジュールの側面において,最先端技術と方法論を包括的に分析する。
CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。
- 参考スコア(独自算出の注目度): 41.88454905407017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based virtual try-on aims to synthesize a naturally dressed person
image with a clothing image, which revolutionizes online shopping and inspires
related topics within image generation, showing both research significance and
commercial potentials. However, there is a great gap between current research
progress and commercial applications and an absence of comprehensive overview
towards this field to accelerate the development. In this survey, we provide a
comprehensive analysis of the state-of-the-art techniques and methodologies in
aspects of pipeline architecture, person representation and key modules such as
try-on indication, clothing warping and try-on stage. We propose a new semantic
criteria with CLIP, and evaluate representative methods with uniformly
implemented evaluation metrics on the same dataset. In addition to quantitative
and qualitative evaluation of current open-source methods, we also utilize
ControlNet to fine-tune a recent large image generation model (PBE) to show
future potentials of large-scale models on image-based virtual try-on task.
Finally, unresolved issues are revealed and future research directions are
prospected to identify key trends and inspire further exploration. The
uniformly implemented evaluation metrics, dataset and collected methods will be
made public available at
https://github.com/little-misfit/Survey-Of-Virtual-Try-On.
- Abstract(参考訳): 画像ベースの仮想試着は、自然に着飾った人物画像を衣料品画像で合成することを目的としており、オンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激し、研究上の意義と商業的可能性の両方を示す。
しかし、現在の研究進展と商用アプリケーションの間には大きなギャップがあり、開発を加速するためにこの分野の包括的な概要が欠落している。
本研究では,パイプラインアーキテクチャ,人的表現,トライオン表示,衣服の反り,トライオンステージといったキーモジュールの側面において,最先端の技術と方法論を包括的に分析する。
CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。
現状のオープンソース手法の定量的,定性的な評価に加えて,最近の大規模画像生成モデル(PBE)を微調整し,画像ベース仮想試行課題における大規模モデルの将来可能性を示す。
最後に未解決の課題が明らかにされ、今後の研究の方向性が重要なトレンドを特定し、さらなる探究を促すことが期待されている。
均一に実装された評価メトリクス、データセット、収集されたメソッドはhttps://github.com/little-misfit/Survey-Of-Virtual-Try-Onで公開される。
関連論文リスト
- QUASAR: QUality and Aesthetics Scoring with Advanced Representations [20.194917729936357]
本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
論文 参考訳(メタデータ) (2024-03-11T16:21:50Z) - Local Feature Matching Using Deep Learning: A Survey [19.322545965903608]
局所的な特徴マッチングは、画像検索、3D再構成、オブジェクト認識といった領域を含むコンピュータビジョンの領域において幅広い応用を享受する。
近年,深層学習モデルの導入により,局所的特徴マッチング手法の探究が盛んに行われている。
また,移動構造,リモートセンシング画像登録,医用画像登録などの多様な領域における局所的特徴マッチングの実践的応用についても検討した。
論文 参考訳(メタデータ) (2024-01-31T04:32:41Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Robust Visual Question Answering: Datasets, Methods, and Future
Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文 参考訳(メタデータ) (2023-07-21T10:12:09Z) - Dataset and Case Studies for Visual Near-Duplicates Detection in the
Context of Social Media [11.569861200214294]
視覚的に類似したコンテンツの追跡は、そのようなコンテンツの拡散に関連する社会現象を研究・分析する上で重要な課題である。
ソーシャルメディア画像のデータセットを構築し、画像検索といくつかの高度な視覚特徴抽出手法に基づいて視覚近距離検索手法を評価する。
論文 参考訳(メタデータ) (2022-03-14T15:10:30Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - A Survey of Orthogonal Moments for Image Representation: Theory,
Implementation, and Evaluation [70.0671278823937]
モーメントに基づく画像表現は、セマンティック記述のコア条件を満たすのに有効であると報告されている。
本稿では,画像表現における直交モーメントの包括的調査を行い,高速/精度計算,ロバスト性/不変性最適化,定義拡張の最近の進歩について述べる。
提案した理論分析,ソフトウェア実装,評価結果は,特に新しい技術開発や実世界の応用の促進において,コミュニティを支援することができる。
論文 参考訳(メタデータ) (2021-03-27T03:41:08Z) - Neural Networks for Semantic Gaze Analysis in XR Settings [0.0]
本稿では,関心量の注釈に必要な時間と情報を最小化する新しい手法を提案する。
画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。
本手法は実環境および仮想環境で評価し,最先端の手法と競合できることを示す。
論文 参考訳(メタデータ) (2021-03-18T18:05:01Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。