論文の概要: ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal
Fashion Design
- arxiv url: http://arxiv.org/abs/2208.05621v1
- Date: Thu, 11 Aug 2022 03:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:11:32.970721
- Title: ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal
Fashion Design
- Title(参考訳): ARMANI: 統一型クロスモーダルファッションデザインのための部分レベルガーメントテキストアライメント
- Authors: Xujie Zhang, Yu Sha, Michael C. Kampffmeyer, Zhenyu Xie, Zequn Jie,
Chengwen Huang, Jianqing Peng, Xiaodan Liang
- Abstract要約: クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。
MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。
ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
- 参考スコア(独自算出の注目度): 66.68194916359309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal fashion image synthesis has emerged as one of the most promising
directions in the generation domain due to the vast untapped potential of
incorporating multiple modalities and the wide range of fashion image
applications. To facilitate accurate generation, cross-modal synthesis methods
typically rely on Contrastive Language-Image Pre-training (CLIP) to align
textual and garment information. In this work, we argue that simply aligning
texture and garment information is not sufficient to capture the semantics of
the visual information and therefore propose MaskCLIP. MaskCLIP decomposes the
garments into semantic parts, ensuring fine-grained and semantically accurate
alignment between the visual and text information. Building on MaskCLIP, we
propose ARMANI, a unified cross-modal fashion designer with part-level
garment-text alignment. ARMANI discretizes an image into uniform tokens based
on a learned cross-modal codebook in its first stage and uses a Transformer to
model the distribution of image tokens for a real image given the tokens of the
control signals in its second stage. Contrary to prior approaches that also
rely on two-stage paradigms, ARMANI introduces textual tokens into the
codebook, making it possible for the model to utilize fine-grain semantic
information to generate more realistic images. Further, by introducing a
cross-modal Transformer, ARMANI is versatile and can accomplish image synthesis
from various control signals, such as pure text, sketch images, and partial
images. Extensive experiments conducted on our newly collected cross-modal
fashion dataset demonstrate that ARMANI generates photo-realistic images in
diverse synthesis tasks and outperforms existing state-of-the-art cross-modal
image synthesis approaches.Our code is available at
https://github.com/Harvey594/ARMANI.
- Abstract(参考訳): クロスモーダルなファッション画像合成は、複数のモダリティと幅広いファッション画像アプリケーションを統合するという膨大な未解決の可能性のために、ジェネレーション領域で最も有望な方向の1つとして登場してきた。
正確な生成を容易にするため、クロスモーダル合成法は典型的にはコントラスト言語-画像事前学習(CLIP)を用いてテキスト情報と衣服情報を整列させる。
本研究では,テクスチャと衣料情報の整合だけでは視覚情報のセマンティクスを捉えるには不十分であり,従ってMaskCLIPを提案する。
MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。
MaskCLIP上に構築されたARMANIは,部分レベルの着物テキストアライメントを備えたクロスモーダルファッションデザイナである。
ARMANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、トランスフォーマーを使用して、第2段階で制御信号のトークンが与えられた実画像に対する画像トークンの分布をモデル化する。
2段階のパラダイムにも依存する以前のアプローチとは対照的に、ARMANIはコードブックにテキストトークンを導入し、よりリアルな画像を生成するために細粒のセマンティック情報を利用することを可能にした。
さらに、クロスモーダルトランスを導入することで、ARMANIは汎用的で、純テキスト、スケッチ画像、部分画像などの様々な制御信号から画像合成を行うことができる。
新たに収集したクロスモーダルファッションデータセットで行った広範囲な実験により、アルマーニは様々な合成タスクでフォトリアリスティックな画像を生成し、既存の最先端のクロスモーダル画像合成アプローチよりも優れています。
関連論文リスト
- IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis [8.080248399002663]
本稿では,セマンティック画像合成を画像認識タスクとして扱う。
スタイル参照はまずランダムノイズで汚染され、その後IIDMによって徐々に認知される。
改良,色変換,モデルアンサンブルの3つの手法が提案され,生成品質がさらに向上した。
論文 参考訳(メタデータ) (2024-03-20T08:21:00Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。