論文の概要: Fashion Captioning: Towards Generating Accurate Descriptions with
Semantic Rewards
- arxiv url: http://arxiv.org/abs/2008.02693v2
- Date: Sat, 23 Apr 2022 18:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:19:27.930687
- Title: Fashion Captioning: Towards Generating Accurate Descriptions with
Semantic Rewards
- Title(参考訳): ファッションキャプション:意味的報酬による正確な説明の生成に向けて
- Authors: Xuewen Yang, Heming Zhang, Di Jin, Yingru Liu, Chi-Hao Wu, Jianchao
Tan, Dongliang Xie, Jue Wang, Xin Wang
- Abstract要約: 本研究の目的は、正確かつ表現力のあるファッションキャプションのための新しい学習フレームワークを開発することである。
まず属性を識別し,属性レベルの意味的報酬(ALS)と文レベルの意味的報酬(SLS)をメトリクスとして導入し,テキスト記述の質を向上させる。
- 参考スコア(独自算出の注目度): 41.04264950157818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating accurate descriptions for online fashion items is important not
only for enhancing customers' shopping experiences, but also for the increase
of online sales. Besides the need of correctly presenting the attributes of
items, the expressions in an enchanting style could better attract customer
interests. The goal of this work is to develop a novel learning framework for
accurate and expressive fashion captioning. Different from popular work on
image captioning, it is hard to identify and describe the rich attributes of
fashion items. We seed the description of an item by first identifying its
attributes, and introduce attribute-level semantic (ALS) reward and
sentence-level semantic (SLS) reward as metrics to improve the quality of text
descriptions. We further integrate the training of our model with maximum
likelihood estimation (MLE), attribute embedding, and Reinforcement Learning
(RL). To facilitate the learning, we build a new FAshion CAptioning Dataset
(FACAD), which contains 993K images and 130K corresponding enchanting and
diverse descriptions. Experiments on FACAD demonstrate the effectiveness of our
model.
- Abstract(参考訳): オンラインファッションアイテムの正確な説明を生成することは、顧客のショッピング体験の向上だけでなく、オンライン販売の増加にも重要である。
商品の属性を正しく提示する必要性に加えて、エンチャンティングスタイルの表現は顧客の興味を惹きつける可能性がある。
本研究の目的は,正確かつ表現豊かなファッションキャプションのための新しい学習フレームワークの開発である。
画像キャプションに関する一般的な作品とは異なり、ファッションアイテムの豊富な属性を識別し記述することは困難である。
まず属性を識別し,属性レベルの意味的報酬(ALS)と文レベルの意味的報酬(SLS)をメトリクスとして導入し,テキスト記述の質を向上させる。
さらに、我々のモデルのトレーニングを、最大推定(MLE)、属性埋め込み、強化学習(RL)と統合する。
学習を容易にするために,993k画像と130k対応の多様な記述を含む新しいファッションキャプションデータセット(facad)を構築した。
FACAD実験により,本モデルの有効性が示された。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - ITEm: Unsupervised Image-Text Embedding Learning for eCommerce [9.307841602452678]
製品埋め込みは、電子商取引における幅広い応用の基礎となる。
本稿では,画像とテキストのモダリティによく対応できる画像テキスト埋め込みモデル(ITEm)を提案する。
我々は、非常に類似した商品の探索と製品カテゴリーの予測という2つのタスクにおいて、事前訓練されたITTmを評価する。
論文 参考訳(メタデータ) (2023-10-22T15:39:44Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Attribute-aware Explainable Complementary Clothing Recommendation [37.30129304097086]
本研究は、ファッションレコメンデーションにおける説明可能性の課題に、新しいファッションレコメンデーションレコメンダ(AFRec)を提案して取り組むことを目的とする。
AFRecレコメンダは、各アイテムの視覚的特徴から抽出された属性レベルの表現を明示的に活用することで、服の互換性を評価する。
属性は2つのファッションアイテム間のブリッジとして機能し、そこでは属性間の学習された互換性を通じて、一対のアイテムの親和性を定量化する。
論文 参考訳(メタデータ) (2021-07-04T14:56:07Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Attr2Style: A Transfer Learning Approach for Inferring Fashion Styles
via Apparel Attributes [7.330801562698453]
本稿では,十分な属性ベースの接頭辞を含むソースデータセットを用いて学習したトランスファーラーニングに基づく画像キャプションモデルを提案する。
私たちはこの事実を活用し、アテンションメカニズムを使用してエンコーダ-デコーダベースのフレームワークでモデルをトレーニングします。
私たちのモデルのための概念実証は、Myntraのパイロットで、一部の内部ユーザからフィードバックを受けています。
論文 参考訳(メタデータ) (2020-08-26T16:42:21Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Fine-Grained Fashion Similarity Learning by Attribute-Specific Embedding
Network [59.479783847922135]
本稿では,複数の属性固有の埋め込みをエンドツーエンドで共同学習するAttribute-Specific Embedding Network (ASEN)を提案する。
ASENは関連する領域を特定し、指定された属性のガイダンスの下で必須のパターンをキャプチャすることができる。
4つのファッション関連データセットの実験は、ファッション類似性学習におけるASENの有効性を示している。
論文 参考訳(メタデータ) (2020-02-07T14:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。