論文の概要: From Design Draft to Real Attire: Unaligned Fashion Image Translation
- arxiv url: http://arxiv.org/abs/2008.01023v3
- Date: Wed, 16 Sep 2020 12:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 07:08:06.754817
- Title: From Design Draft to Real Attire: Unaligned Fashion Image Translation
- Title(参考訳): デザインドラフトからリアルアッティアへ:非整列ファッション画像翻訳
- Authors: Yu Han, Shuai Yang, Wenjing Wang, Jiaying Liu
- Abstract要約: デザインドラフトと実際のファッションアイテム間の非整合翻訳問題について検討する。
我々の主な考え方は、サンプリングネットワークをトレーニングし、出力と構造が一致した中間状態への入力を適応的に調整することである。
本稿では,このアイデアを逆変換問題に適用し,それに応じてR2DNetを提示する。
- 参考スコア(独自算出の注目度): 42.453384643562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion manipulation has attracted growing interest due to its great
application value, which inspires many researches towards fashion images.
However, little attention has been paid to fashion design draft. In this paper,
we study a new unaligned translation problem between design drafts and real
fashion items, whose main challenge lies in the huge misalignment between the
two modalities. We first collect paired design drafts and real fashion item
images without pixel-wise alignment. To solve the misalignment problem, our
main idea is to train a sampling network to adaptively adjust the input to an
intermediate state with structure alignment to the output. Moreover, built upon
the sampling network, we present design draft to real fashion item translation
network (D2RNet), where two separate translation streams that focus on texture
and shape, respectively, are combined tactfully to get both benefits. D2RNet is
able to generate realistic garments with both texture and shape consistency to
their design drafts. We show that this idea can be effectively applied to the
reverse translation problem and present R2DNet accordingly. Extensive
experiments on unaligned fashion design translation demonstrate the superiority
of our method over state-of-the-art methods. Our project website is available
at: https://victoriahy.github.io/MM2020/ .
- Abstract(参考訳): ファッションの操作は、その大きな応用価値から関心が高まり、多くの研究がファッションイメージに拍車をかけた。
しかし、ファッションデザインの草案にはほとんど注目されていない。
本稿では,デザインドラフトと実際のファッションアイテム間の非整合性翻訳問題について検討し,その主な課題は2つのモダリティ間の大きな相違にある。
まず,2つのデザインドラフトと実際のファッションアイテムイメージをピクセルワイドなアライメントなしで収集する。
ミスアライメント問題を解決するためには,サンプリングネットワークを訓練し,入力を中間状態に適応的に調整し,出力に構造的アライメントを施すことが主目的である。
さらに,サンプリングネットワーク上に構築した実ファッションアイテム翻訳ネットワーク(D2RNet)に,テクスチャと形状に着目した2つの別々の翻訳ストリームを組み合わせることで,両者の利点を享受する。
D2RNetは、デザインドラフトに対してテクスチャと形状の整合性の両方でリアルな衣服を生成することができる。
本稿では,このアイデアを逆変換問題に適用し,それに応じてR2DNetを提案する。
非整合なファッションデザイン翻訳に関する広範囲な実験は、最先端の手法よりも優れた方法を示している。
プロジェクトのwebサイトは、https://victoriahy.github.io/mm2020/。
関連論文リスト
- Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
論文 参考訳(メタデータ) (2024-03-21T20:43:10Z) - Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design [14.588884182004277]
Fashion-Diffusion データセットは,多年にわたる厳格な努力の成果である。
データセットは100万以上の高品質なファッションイメージで構成されており、詳細なテキスト記述と組み合わせている。
T2Iに基づくファッションデザイン分野の標準化を促進するために,ファッションデザインモデルの性能評価のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-19T06:43:11Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Fine-Grained Image Style Transfer with Visual Transformers [59.85619519384446]
本稿では,コンテンツとスタイルイメージの両方を視覚トークンに分割し,よりきめ細かなスタイル変換を実現するSTTR(Style TRansformer)ネットワークを提案する。
STTRと既存のアプローチを比較するために,Amazon Mechanical Turkのユーザスタディを実施している。
論文 参考訳(メタデータ) (2022-10-11T06:26:00Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - StyleFlow For Content-Fixed Image to Image Translation [15.441136520005578]
StyleFlowは、正規化フローと新しいStyle-Aware Normalization (SAN)モジュールで構成される新しいI2I翻訳モデルである。
我々のモデルは画像誘導翻訳とマルチモーダル合成の両方をサポートしている。
論文 参考訳(メタデータ) (2022-07-05T09:40:03Z) - UNIST: Unpaired Neural Implicit Shape Translation Network [12.449055333025955]
汎用・不対形型翻訳のための最初の深部神経暗黙モデルUNISTを紹介する。
我々のモデルは、芸術の状態を表わす点雲ではなく、暗黙のフィールドを自動エンコードして構築されている。
論文 参考訳(メタデータ) (2021-12-10T08:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。