論文の概要: DM-VTON: Distilled Mobile Real-time Virtual Try-On
- arxiv url: http://arxiv.org/abs/2308.13798v1
- Date: Sat, 26 Aug 2023 07:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:58:00.486623
- Title: DM-VTON: Distilled Mobile Real-time Virtual Try-On
- Title(参考訳): DM-VTON:モバイルリアルタイムバーチャルトライオン
- Authors: Khoi-Nguyen Nguyen-Ngoc and Thanh-Tung Phan-Nguyen and Khanh-Duy Le
and Tam V. Nguyen and Minh-Triet Tran and Trung-Nghia Le
- Abstract要約: Distilled Mobile Real-time Virtual Try-On (DM-VTON) は、シンプルで効率的な仮想トライオンフレームワークである。
学生ネットワーク内に効率的なモバイル生成モジュールを導入し,実行時間を大幅に削減する。
実験結果から,提案手法は1台のNvidia Tesla T4 GPUで毎秒40フレームを実現することができることがわかった。
- 参考スコア(独自算出の注目度): 16.35842298296878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fashion e-commerce industry has witnessed significant growth in recent
years, prompting exploring image-based virtual try-on techniques to incorporate
Augmented Reality (AR) experiences into online shopping platforms. However,
existing research has primarily overlooked a crucial aspect - the runtime of
the underlying machine-learning model. While existing methods prioritize
enhancing output quality, they often disregard the execution time, which
restricts their applications on a limited range of devices. To address this
gap, we propose Distilled Mobile Real-time Virtual Try-On (DM-VTON), a novel
virtual try-on framework designed to achieve simplicity and efficiency. Our
approach is based on a knowledge distillation scheme that leverages a strong
Teacher network as supervision to guide a Student network without relying on
human parsing. Notably, we introduce an efficient Mobile Generative Module
within the Student network, significantly reducing the runtime while ensuring
high-quality output. Additionally, we propose Virtual Try-on-guided Pose for
Data Synthesis to address the limited pose variation observed in training
images. Experimental results show that the proposed method can achieve 40
frames per second on a single Nvidia Tesla T4 GPU and only take up 37 MB of
memory while producing almost the same output quality as other state-of-the-art
methods. DM-VTON stands poised to facilitate the advancement of real-time AR
applications, in addition to the generation of lifelike attired human figures
tailored for diverse specialized training tasks.
https://sites.google.com/view/ltnghia/research/DMVTON
- Abstract(参考訳): ファッション電子商取引業界は近年、著しい成長をみせており、画像ベースのバーチャル試行技術で拡張現実(Augmented Reality, AAR)体験をオンラインショッピングプラットフォームに組み込む方法を模索している。
しかし、既存の研究は主に、基礎となる機械学習モデルのランタイムという重要な側面を見落としている。
既存の方法は出力品質を優先するが、実行時間を無視することが多く、限られた範囲のデバイスでアプリケーションを制限している。
このギャップに対処するため,我々は,シンプルで効率的な仮想試行フレームワークであるDistilled Mobile Real-time Virtual Try-On (DM-VTON)を提案する。
本手法は,強力な教員ネットワークを活用した知識蒸留方式に基づいて,学生ネットワークの指導を人間による解析に頼らずに行う。
特に,学生ネットワーク内に効率的なモバイル生成モジュールを導入し,高品質な出力を確保しつつ,実行時間を著しく削減した。
さらに,トレーニング画像に見られる限られたポーズ変動に対処するために,データ合成のための仮想試行法を提案する。
実験結果から,提案手法は1台のNvidia Tesla T4 GPUで毎秒40フレームを実現でき,メモリは37MBしか消費せず,出力品質は他の最先端の方法とほぼ同等であることがわかった。
DM-VTONは、多様な専門的な訓練作業に適した、ライフスタイルの服装の人間像の生成に加えて、リアルタイムAR応用の進展を促進する。
https://sites.google.com/view/ltnghia/research/DMVTON
関連論文リスト
- MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation [17.27883003990266]
VLN(Vision-and-Language Navigation)は、Embodied AIのコアタスクである。
本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNについて述べる。
その結果,2段階蒸留法は,教師モデルと学生モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:54:54Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Real-Time Onboard Object Detection for Augmented Reality: Enhancing
Head-Mounted Display with YOLOv8 [2.1530718840070784]
本稿では,拡張現実(AR)環境における機械学習(ML)を用いたリアルタイム物体検出のためのソフトウェアアーキテクチャを提案する。
本稿では、YOLOv8モデルの画像処理パイプラインと、ヘッドセットのリソース制限エッジコンピューティングプラットフォーム上でのリアルタイム化技術について述べる。
論文 参考訳(メタデータ) (2023-06-06T09:35:45Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - ARShoe: Real-Time Augmented Reality Shoe Try-on System on Smartphones [14.494454213703111]
この研究は、スマートフォン、すなわちARShoeのためのリアルタイム拡張現実バーチャル靴試着システムを提案する。
ARShoeは、ポーズ推定とセグメンテーションを同時に実現するために、新しいマルチブランチネットワークを採用している。
トレーニングと評価のために,複数の仮想靴試着タスク関連ラベルを用いた,最初の大規模フットベンチマークを構築した。
論文 参考訳(メタデータ) (2021-08-24T03:54:45Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Intrinsic Reward Driven Imitation Learning via Generative Model [48.97800481338626]
ほとんどの逆強化学習(IRL)法は、高次元環境下では実証者よりも優れていない。
生成モデルを用いて固有報酬信号を生成するための新たな報奨学習モジュールを提案する。
実験結果から,本手法は,一生のデモンストレーションであっても,複数のアタリゲームにおいて最先端のIRL法よりも優れることが示された。
論文 参考訳(メタデータ) (2020-06-26T15:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。