論文の概要: CurlingNet: Compositional Learning between Images and Text for Fashion
IQ Data
- arxiv url: http://arxiv.org/abs/2003.12299v2
- Date: Mon, 30 Mar 2020 04:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:12:49.998476
- Title: CurlingNet: Compositional Learning between Images and Text for Fashion
IQ Data
- Title(参考訳): CurlingNet: Fashion IQデータのための画像とテキスト間の合成学習
- Authors: Youngjae Yu, Seunghwan Lee, Yuncheol Choi, Gunhee Kim
- Abstract要約: 本稿では,画像テキスト埋め込みの合成のセマンティック距離を計測できるCurlingNetという手法を提案する。
ファッション領域のデータに対して効果的な画像テキスト合成を学習するために,本モデルでは2つの重要な要素を提案する。
ICCV 2019では、私たちのモデルのアンサンブルが最高のパフォーマンスの1つを達成する最初のファッション-IQチャレンジに参加します。
- 参考スコア(独自算出の注目度): 52.714534304697395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach named CurlingNet that can measure the semantic
distance of composition of image-text embedding. In order to learn an effective
image-text composition for the data in the fashion domain, our model proposes
two key components as follows. First, the Delivery makes the transition of a
source image in an embedding space. Second, the Sweeping emphasizes
query-related components of fashion images in the embedding space. We utilize a
channel-wise gating mechanism to make it possible. Our single model outperforms
previous state-of-the-art image-text composition models including TIRG and
FiLM. We participate in the first fashion-IQ challenge in ICCV 2019, for which
ensemble of our model achieves one of the best performances.
- Abstract(参考訳): 本稿では,画像テキスト埋め込みの合成のセマンティック距離を計測できるCurlingNetという手法を提案する。
ファッション領域におけるデータに対する効果的な画像テキスト合成を学習するために,本モデルは以下の2つの重要な構成要素を提案する。
まず、Deliveryは、埋め込みスペースにおけるソースイメージの移行を行います。
第二に、Sweepingは埋め込みスペースにおけるファッションイメージのクエリ関連コンポーネントを強調している。
我々はチャネルワイズゲーティング機構を利用して実現している。
我々の単一モデルは、TIRGやFiLMなどの最先端画像テキスト合成モデルよりも優れている。
ICCV 2019では、私たちのモデルのアンサンブルが最高のパフォーマンスの1つを達成する最初のファッション-IQチャレンジに参加します。
関連論文リスト
- Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - Cycled Compositional Learning between Images and Text [46.748458840791585]
本稿では,画像テキスト埋め込みの合成のセマンティックな距離を計測できるCycled composition Networkという手法を提案する。
まず、コンポジションネットワークは、相対字幕を用いて埋め込み空間内の対象画像への参照画像を転送する。
次に、補正ネットワークは、埋め込み空間における参照画像と検索対象画像との差を算出し、相対的なキャプションとマッチングする。
論文 参考訳(メタデータ) (2021-07-24T01:59:11Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。