Fugu-MT 論文翻訳(概要): Image-Based Virtual Try-On: A Survey

論文の概要: Image-Based Virtual Try-On: A Survey

arxiv url: http://arxiv.org/abs/2311.04811v2
Date: Sat, 9 Dec 2023 15:34:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 01:27:48.715372
Title: Image-Based Virtual Try-On: A Survey
Title（参考訳）: イメージベース仮想トライオン:調査
Authors: Dan Song, Xuanpu Zhang, Juan Zhou, Weizhi Nie, Ruofeng Tong, Mohan Kankanhalli and An-An Liu
Abstract要約: 画像ベースの仮想試着は、自然に着飾った人物画像を衣服のイメージで合成することを目的としており、オンラインショッピングに革命をもたらす。本稿では,パイプラインアーキテクチャ,人物表現,トライオン表示などの重要なモジュールの側面において,最先端技術と方法論を包括的に分析する。 CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。
参考スコア（独自算出の注目度）: 40.55428225199453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-based virtual try-on aims to synthesize a naturally dressed person image with a clothing image, which revolutionizes online shopping and inspires related topics within image generation, showing both research significance and commercial potential. However, there is a big gap between current research progress and commercial applications and an absence of comprehensive overview of this field to accelerate the development. In this survey, we provide a comprehensive analysis of the state-of-the-art techniques and methodologies in aspects of pipeline architecture, person representation and key modules such as try-on indication, clothing warping and try-on stage. We propose a new semantic criteria with CLIP, and evaluate representative methods with uniformly implemented evaluation metrics on the same dataset. In addition to quantitative and qualitative evaluation of current open-source methods, we also utilize ControlNet to fine-tune a recent large image generation model (PBE) to show future potential of large-scale models on image-based virtual try-on task. Finally, unresolved issues are highlighted and future research directions are prospected to identify key trends and inspire further exploration. The uniformly implemented evaluation metrics, dataset and collected methods will be made public available at https://github.com/little-misfit/Survey-Of-Virtual-Try-On.
Abstract（参考訳）: 画像ベースの仮想試着は、自然に着飾った人物画像を衣服画像で合成することを目的としており、これはオンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激し、研究の意義と商業的可能性の両方を示す。しかし、現在の研究進展と商用アプリケーションの間には大きなギャップがあり、開発を加速するためにこの分野の包括的な概要が欠落している。本研究では,パイプラインアーキテクチャ,人的表現,トライオン表示,衣服の反り,トライオンステージといったキーモジュールの側面において,最先端の技術と方法論を包括的に分析する。 CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。現状のオープンソース手法の定量的,定性的な評価に加えて,最近の大規模画像生成モデル(PBE)を微調整し,画像ベース仮想試行課題における大規模モデルの可能性を示す。最後に、未解決の課題が強調され、今後の研究の方向性が重要なトレンドを特定し、さらなる探索を促すだろう。均一に実装された評価メトリクス、データセット、収集されたメソッドはhttps://github.com/little-misfit/Survey-Of-Virtual-Try-Onで公開される。

関連論文リスト

Place Recognition Meet Multiple Modalitie: A Comprehensive Review, Current Challenges and Future Directions [2.4775350526606355]
位置認識の最近の進歩を概観し,3つの方法論的パラダイムを強調した。 CNNベースのアプローチ、トランスフォーマーベースのフレームワーク、およびクロスモーダル戦略について議論する。我々は現在の研究課題を特定し、ドメイン適応、リアルタイムパフォーマンス、生涯学習を含む今後の方向性を概説し、この領域の今後の進歩を刺激する。
論文参考訳（メタデータ） (2025-05-20T08:16:37Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks [9.388897214344572]
2次元画像からの3次元3次元再構成はコンピュータビジョンにおける活発な研究分野である。伝統的にこの作業にはパラメトリック技術が用いられてきた。近年の進歩は、学習ベースの方法にシフトしている。
論文参考訳（メタデータ） (2024-08-29T11:16:34Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions [6.2719115566879236]
拡散モデル(DM)は画像データ拡張のための強力なツールとして登場した。 DMは、基礎となるデータ分布を学習することで、現実的で多様な画像を生成する。この分野における現在の課題と今後の研究方向性について論じる。
論文参考訳（メタデータ） (2024-07-04T18:06:48Z)
Cross-view geo-localization: a survey [1.3686993145787065]
クロスビューなジオローカライゼーションは、コンピュータビジョンの領域で注目を浴びている。本稿では,この領域に不可欠な最先端の方法論,技法,および関連する課題について,徹底的な調査を行う。
論文参考訳（メタデータ） (2024-06-14T05:14:54Z)
Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文参考訳（メタデータ） (2024-05-13T14:44:22Z)
Local Feature Matching Using Deep Learning: A Survey [19.322545965903608]
局所的な特徴マッチングは、画像検索、3D再構成、オブジェクト認識といった領域を含むコンピュータビジョンの領域において幅広い応用を享受する。近年,深層学習モデルの導入により,局所的特徴マッチング手法の探究が盛んに行われている。また,移動構造,リモートセンシング画像登録,医用画像登録などの多様な領域における局所的特徴マッチングの実践的応用についても検討した。
論文参考訳（メタデータ） (2024-01-31T04:32:41Z)
Revisiting Self-supervised Learning of Speech Representation from a Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文参考訳（メタデータ） (2024-01-16T21:13:22Z)
Dataset and Case Studies for Visual Near-Duplicates Detection in the Context of Social Media [11.569861200214294]
視覚的に類似したコンテンツの追跡は、そのようなコンテンツの拡散に関連する社会現象を研究・分析する上で重要な課題である。ソーシャルメディア画像のデータセットを構築し、画像検索といくつかの高度な視覚特徴抽出手法に基づいて視覚近距離検索手法を評価する。
論文参考訳（メタデータ） (2022-03-14T15:10:30Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)
Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文参考訳（メタデータ） (2020-11-25T10:18:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。