論文の概要: ShineOn: Illuminating Design Choices for Practical Video-based Virtual
Clothing Try-on
- arxiv url: http://arxiv.org/abs/2012.10495v2
- Date: Wed, 13 Jan 2021 00:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:21:35.547939
- Title: ShineOn: Illuminating Design Choices for Practical Video-based Virtual
Clothing Try-on
- Title(参考訳): ShineOn:実用的なビデオベースの仮想衣料試着のためのデザイン選択
- Authors: Gaurav Kuppa, Andrew Jong, Vera Liu, Ziwei Liu, and Teng-Sheng Moh
- Abstract要約: 仮想衣料試着のためのビデオ合成における効果的な設計選択を分離するための一連の科学的実験を構築した。
具体的には, ポーズアノテーション, セルフアテンション層配置, アクティベーション機能の影響について検討する。
swishやsineといった新しいアクティベーションの魅力にもかかわらず、geluとreluのアクティベーション機能は実験で最も効果的です。
- 参考スコア(独自算出の注目度): 8.909228149756993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual try-on has garnered interest as a neural rendering benchmark task to
evaluate complex object transfer and scene composition. Recent works in virtual
clothing try-on feature a plethora of possible architectural and data
representation choices. However, they present little clarity on quantifying the
isolated visual effect of each choice, nor do they specify the hyperparameter
details that are key to experimental reproduction. Our work, ShineOn,
approaches the try-on task from a bottom-up approach and aims to shine light on
the visual and quantitative effects of each experiment. We build a series of
scientific experiments to isolate effective design choices in video synthesis
for virtual clothing try-on. Specifically, we investigate the effect of
different pose annotations, self-attention layer placement, and activation
functions on the quantitative and qualitative performance of video virtual
try-on. We find that DensePose annotations not only enhance face details but
also decrease memory usage and training time. Next, we find that attention
layers improve face and neck quality. Finally, we show that GELU and ReLU
activation functions are the most effective in our experiments despite the
appeal of newer activations such as Swish and Sine. We will release a
well-organized code base, hyperparameters, and model checkpoints to support the
reproducibility of our results. We expect our extensive experiments and code to
greatly inform future design choices in video virtual try-on. Our code may be
accessed at https://github.com/andrewjong/ShineOn-Virtual-Tryon.
- Abstract(参考訳): 仮想試行は、複雑なオブジェクト転送とシーン構成を評価するニューラルネットワークベンチマークタスクとして関心を集めている。
仮想衣料品の試着に関する最近の研究には、アーキテクチャとデータ表現の選択肢が多数含まれている。
しかし、それぞれの選択の孤立した視覚効果の定量化についてはほとんど明確ではないし、実験的な再現の鍵となるハイパーパラメータの詳細を特定できない。
ShineOnはボトムアップアプローチから試行課題にアプローチし、それぞれの実験の視覚的および定量的効果に光を当てることを目的としています。
仮想衣料試着のためのビデオ合成における効果的な設計選択を分離するための一連の科学的実験を構築した。
具体的には,ビデオ仮想トライオンの定量的・質的性能に及ぼす異なるポーズアノテーション,セルフアテンション層配置,アクティベーション機能の影響について検討した。
DensePoseアノテーションは顔の詳細を向上するだけでなく、メモリ使用量やトレーニング時間を短縮する。
次に、注意層は顔と首の品質を改善する。
最後に,swish や sine のような新しい活性化の魅力にもかかわらず,gelu と relu の活性化関数は実験において最も効果的であることを示した。
結果の再現性をサポートするために、よく組織されたコードベース、ハイパーパラメータ、モデルチェックポイントをリリースします。
われわれの広範な実験とコードは、ビデオ仮想トライオンにおける将来の設計選択に大きな影響を与えることを期待している。
私たちのコードはhttps://github.com/andrewjong/ShineOn-Virtual-Tryonでアクセスできます。
関連論文リスト
- ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Vision Transformer Visualization: What Neurons Tell and How Neurons
Behave? [33.87454837848252]
視覚変換器(ViTs)をまたいだ視覚情報や特徴埋め込みの公開を支援する効果的な可視化手法を提案する。
提案手法は,入力画像における局所的およびグローバル的情報の可視化と,複数のレベルでの潜在的特徴埋め込みに着目して,ViTの計算過程から逸脱する。
次に、レイヤ間を効果的に可視化する厳密なフレームワークを開発し、ViTsフィルタの効果を明らかにし、オブジェクトパッチに対するグループ化/クラスタリングの挙動を明らかにする。
論文 参考訳(メタデータ) (2022-10-14T08:56:24Z) - ARShoe: Real-Time Augmented Reality Shoe Try-on System on Smartphones [14.494454213703111]
この研究は、スマートフォン、すなわちARShoeのためのリアルタイム拡張現実バーチャル靴試着システムを提案する。
ARShoeは、ポーズ推定とセグメンテーションを同時に実現するために、新しいマルチブランチネットワークを採用している。
トレーニングと評価のために,複数の仮想靴試着タスク関連ラベルを用いた,最初の大規模フットベンチマークを構築した。
論文 参考訳(メタデータ) (2021-08-24T03:54:45Z) - Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems [6.952659395337689]
そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。
私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
論文 参考訳(メタデータ) (2021-07-05T18:00:50Z) - Cloth Interactive Transformer for Virtual Try-On [106.21605249649957]
本稿では,仮想試行作業のための2段階のインタラクティブトランス (CIT) 手法を提案する。
第1段階では, CITマッチングブロックを設計し, 着物非依存者情報と着物内布情報との長距離相関関係を正確に把握することを目的とした。
第2段階では,人物表現のグローバルな相互相互依存関係を確立するためのCIT推論ブロック,整形衣料品,およびそれに対応する整形布マスクを作成した。
論文 参考訳(メタデータ) (2021-04-12T14:45:32Z) - CharacterGAN: Few-Shot Keypoint Character Animation and Reposing [64.19520387536741]
本稿では,与えられた文字の少数のサンプルに対してのみトレーニング可能な生成モデルである characterGAN を紹介する。
我々のモデルはキーポイント位置に基づいて新しいポーズを生成し、インタラクティブなフィードバックを提供しながらリアルタイムで修正することができる。
提案手法は,近年のベースラインよりも優れており,多様なキャラクタに対してリアルなアニメーションを生成する。
論文 参考訳(メタデータ) (2021-02-05T12:38:15Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。