論文の概要: Attr2Style: A Transfer Learning Approach for Inferring Fashion Styles
via Apparel Attributes
- arxiv url: http://arxiv.org/abs/2008.11662v2
- Date: Fri, 11 Dec 2020 12:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:45:54.783952
- Title: Attr2Style: A Transfer Learning Approach for Inferring Fashion Styles
via Apparel Attributes
- Title(参考訳): Attr2Style:アパレル属性によるファッションスタイル推論のための伝達学習アプローチ
- Authors: Rajdeep Hazra Banerjee, Abhinav Ravi, Ujjal Kr Dutta
- Abstract要約: 本稿では,十分な属性ベースの接頭辞を含むソースデータセットを用いて学習したトランスファーラーニングに基づく画像キャプションモデルを提案する。
私たちはこの事実を活用し、アテンションメカニズムを使用してエンコーダ-デコーダベースのフレームワークでモデルをトレーニングします。
私たちのモデルのための概念実証は、Myntraのパイロットで、一部の内部ユーザからフィードバックを受けています。
- 参考スコア(独自算出の注目度): 7.330801562698453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular fashion e-commerce platforms mostly provide details about low-level
attributes of an apparel (eg, neck type, dress length, collar type) on their
product detail pages. However, customers usually prefer to buy apparel based on
their style information, or simply put, occasion (eg, party/ sports/ casual
wear). Application of a supervised image-captioning model to generate
style-based image captions is limited because obtaining ground-truth
annotations in the form of style-based captions is difficult. This is because
annotating style-based captions requires a certain amount of fashion domain
expertise, and also adds to the costs and manual effort. On the contrary,
low-level attribute based annotations are much more easily available. To
address this issue, we propose a transfer-learning based image captioning model
that is trained on a source dataset with sufficient attribute-based
ground-truth captions, and used to predict style-based captions on a target
dataset. The target dataset has only a limited amount of images with
style-based ground-truth captions. The main motivation of our approach comes
from the fact that most often there are correlations among the low-level
attributes and the higher-level styles for an apparel. We leverage this fact
and train our model in an encoder-decoder based framework using attention
mechanism. In particular, the encoder of the model is first trained on the
source dataset to obtain latent representations capturing the low-level
attributes. The trained model is fine-tuned to generate style-based captions
for the target dataset. To highlight the effectiveness of our method, we
qualitatively and quantitatively demonstrate that the captions generated by our
approach are close to the actual style information for the evaluated apparel. A
Proof Of Concept for our model is under pilot at Myntra where it is exposed to
some internal users for feedback.
- Abstract(参考訳): 人気のファッションeコマースプラットフォームは、主に製品の詳細ページにアパレル(ネックタイプ、ドレスの長さ、カラータイプなど)の低レベル属性の詳細を提供する。
しかし、客は通常、スタイル情報に基づいてアパレルを購入することを好むか、単に機会(パーティー、スポーツ、カジュアルウェアなど)を置く。
教師付き画像キャプションモデルのスタイルベース画像キャプション生成への応用は,スタイルベースキャプションの形式による地味なアノテーションの獲得が困難であるため,制限されている。
これは、アノテートスタイルに基づくキャプションには、一定の量のファッションドメインの専門知識が必要であり、コストや手作業も追加されるためである。
逆に低レベルの属性ベースのアノテーションは、ずっと簡単に利用できる。
この問題に対処するために,我々は,十分な属性に基づく基底キャプションを持つソースデータセット上で学習し,対象データセット上のスタイルに基づくキャプションを予測するためのトランスファーラーニングベースのキャプションモデルを提案する。
ターゲットデータセットは、スタイルベースの接地構文キャプションを備えた限られた量の画像しか持たない。
私たちのアプローチの主な動機は、ほとんどの場合、アパレルの低レベルの属性と高レベルのスタイルの間に相関関係があることにあります。
我々は、この事実を利用して、注意機構を用いたエンコーダ・デコーダベースのフレームワークでモデルをトレーニングする。
特に、モデルのエンコーダは、まずソースデータセットでトレーニングされ、低レベルの属性をキャプチャする潜在表現を取得する。
トレーニングされたモデルは、ターゲットデータセットのスタイルベースのキャプションを生成するように微調整される。
本手法の有効性を強調するため,本手法で生成したキャプションが,評価されたアパレルの実際のスタイル情報に近いことを定量的に定量的に示す。
私たちのモデルのための概念実証は、Myntraのパイロットで、一部の内部ユーザからフィードバックを受けています。
関連論文リスト
- Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Fashion Captioning: Towards Generating Accurate Descriptions with
Semantic Rewards [41.04264950157818]
本研究の目的は、正確かつ表現力のあるファッションキャプションのための新しい学習フレームワークを開発することである。
まず属性を識別し,属性レベルの意味的報酬(ALS)と文レベルの意味的報酬(SLS)をメトリクスとして導入し,テキスト記述の質を向上させる。
論文 参考訳(メタデータ) (2020-08-06T14:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。