論文の概要: ShoeModel: Learning to Wear on the User-specified Shoes via Diffusion Model
- arxiv url: http://arxiv.org/abs/2404.04833v2
- Date: Fri, 19 Jul 2024 07:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 23:27:33.381353
- Title: ShoeModel: Learning to Wear on the User-specified Shoes via Diffusion Model
- Title(参考訳): ShoeModel: 拡散モデルによるユーザ指定靴の着用学習
- Authors: Binghui Chen, Wenyu Li, Yifeng Geng, Xuansong Xie, Wangmeng Zuo,
- Abstract要約: そこで本研究では,靴に作用するヒトの足の可塑性画像を生成するための靴装用システムShoe-Modelを提案する。
ベースラインと比較して、私たちのShoeModelは、異なるタイプの靴よりも一般化され、与えられた靴のID一貫性を維持することができる。
- 参考スコア(独自算出の注目度): 60.60623356092564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of the large-scale diffusion model, Artificial Intelligence Generated Content (AIGC) techniques are popular recently. However, how to truly make it serve our daily lives remains an open question. To this end, in this paper, we focus on employing AIGC techniques in one filed of E-commerce marketing, i.e., generating hyper-realistic advertising images for displaying user-specified shoes by human. Specifically, we propose a shoe-wearing system, called Shoe-Model, to generate plausible images of human legs interacting with the given shoes. It consists of three modules: (1) shoe wearable-area detection module (WD), (2) leg-pose synthesis module (LpS) and the final (3) shoe-wearing image generation module (SW). Them three are performed in ordered stages. Compared to baselines, our ShoeModel is shown to generalize better to different type of shoes and has ability of keeping the ID-consistency of the given shoes, as well as automatically producing reasonable interactions with human. Extensive experiments show the effectiveness of our proposed shoe-wearing system. Figure 1 shows the input and output examples of our ShoeModel.
- Abstract(参考訳): 大規模拡散モデルの開発に伴い、人工知能生成コンテンツ(AIGC)技術が近年人気となっている。
しかし、それを本当に私たちの日常生活に届けるには、まだ未解決の問題だ。
そこで本稿では,AIGC技術を活用したEコマースマーケティング,すなわち人間によるユーザ指定シューズ表示のための超現実的広告画像の作成に焦点をあてる。
具体的には,靴を履く「シューモデル」を提案し,靴と相互作用する人間の足の可塑性画像を生成する。
1)履物領域検出モジュール(WD)、(2)脚位置合成モジュール(LpS)、および最終(3)履物画像生成モジュール(SW)の3つのモジュールから構成される。
第3楽章は順調に演奏される。
ベースラインと比較して、私たちのShoeModelは、さまざまなタイプのシューズを一般化し、靴のID一貫性を維持し、人間と合理的なインタラクションを自動的に生成する能力を持っていることが示されています。
広汎な実験により,提案システムの有効性が示された。
図1は、ShoeModelの入力と出力の例を示しています。
関連論文リスト
- Instruct Me More! Random Prompting for Visual In-Context Learning [30.31759752239964]
Instruct Me More (InMeMo)は、学習可能な摂動(prompt)によってコンテキスト内のペアを拡張し、その可能性を探る手法である。
メインストリームタスクに関する我々の実験は、InMeMoが現在の最先端のパフォーマンスを上回っていることを示している。
この結果から,InMeMoは軽量トレーニングによる視覚的ICLの性能向上のための多目的かつ効率的な方法である可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T01:39:00Z) - Multimodal Detection of Bots on X (Twitter) using Transformers [6.390468088226495]
本稿では,ソーシャルメディアにおけるボット検出手法を提案する。
ユーザ記述フィールドと3つのチャネルの画像のみを使用します。
Cresci'17とTwiBot-20データセットで実施された実験は、我々の導入したアプローチの貴重な利点を示している。
論文 参考訳(メタデータ) (2023-08-28T10:51:11Z) - SUPR: A Sparse Unified Part-Based Human Representation [61.693373050670644]
既存の頭と手のモデルでは、これらの部分の完全な動きを捉えることができません。
従来のボディパーツモデルは、個々のパーツに分離された3Dスキャンを使用して訓練されている。
そこで本研究では,全体モデルと特定部分モデルとを共同で学習する学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-25T09:32:34Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - ShoeRinsics: Shoeprint Prediction for Forensics with Intrinsic
Decomposition [29.408442567550004]
オンライン小売業者が収集した靴のトレッド写真を活用することを提案する。
我々は,1枚のトレッド写真から本質的な画像分解を行うモデルを開発した。
ShoeRinsicsと呼ばれる我々のアプローチは、完全に教師付き合成データと教師なしの小売画像データの組み合わせを活用するために、ドメイン適応と再レンダリング損失を組み合わせたものです。
論文 参考訳(メタデータ) (2022-05-04T23:42:55Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - ARShoe: Real-Time Augmented Reality Shoe Try-on System on Smartphones [14.494454213703111]
この研究は、スマートフォン、すなわちARShoeのためのリアルタイム拡張現実バーチャル靴試着システムを提案する。
ARShoeは、ポーズ推定とセグメンテーションを同時に実現するために、新しいマルチブランチネットワークを採用している。
トレーニングと評価のために,複数の仮想靴試着タスク関連ラベルを用いた,最初の大規模フットベンチマークを構築した。
論文 参考訳(メタデータ) (2021-08-24T03:54:45Z) - AGKD-BML: Defense Against Adversarial Attack by Attention Guided
Knowledge Distillation and Bi-directional Metric Learning [61.8003954296545]
Atention Guided Knowledge Distillation and Bi-directional Metric Learning (AGKD-BML) による新しい対人訓練ベースモデルを提案する。
提案したAGKD-BMLモデルは,最先端のアプローチよりも一貫して優れている。
論文 参考訳(メタデータ) (2021-08-13T01:25:04Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - LGVTON: A Landmark Guided Approach to Virtual Try-On [4.617329011921226]
人物とモデルという2人のイメージから、モデルの服を着ている人の再考を生成する。
これは、ほとんどのeコマースウェブサイトでは、服のみのイメージが通常利用できないという事実を考えると便利である。
論文 参考訳(メタデータ) (2020-04-01T16:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。