論文の概要: Neural Fashion Image Captioning : Accounting for Data Diversity
- arxiv url: http://arxiv.org/abs/2106.12154v2
- Date: Thu, 24 Jun 2021 04:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 11:33:12.681172
- Title: Neural Fashion Image Captioning : Accounting for Data Diversity
- Title(参考訳): ニューラルファッション画像のキャプション : データ多様性の会計
- Authors: Gilles Hacheme, Noureini Sayouti
- Abstract要約: 本論文はファッション画像のキャプションを初めて行う手法の1つである。
InFashAIv1データセットには、約16万のアフリカのファッションアイテムイメージとそのタイトル、価格、一般的な説明が含まれている。
両データセットでモデルを共同でトレーニングすることで,アフリカ風のファッションイメージの品質キャプションが向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image captioning has increasingly large domains of application, and fashion
is not an exception. Having automatic item descriptions is of great interest
for fashion web platforms hosting sometimes hundreds of thousands of images.
This paper is one of the first tackling image captioning for fashion images. To
contribute addressing dataset diversity issues, we introduced the InFashAIv1
dataset containing almost 16.000 African fashion item images with their titles,
prices and general descriptions. We also used the well known DeepFashion
dataset in addition to InFashAIv1. Captions are generated using the Show and
Tell model made of CNN encoder and RNN Decoder. We showed that jointly training
the model on both datasets improves captions quality for African style fashion
images, suggesting a transfer learning from Western style data. The InFashAIv1
dataset is released on Github to encourage works with more diversity inclusion.
- Abstract(参考訳): 画像キャプションはアプリケーション分野が拡大しており、ファッションも例外ではない。
自動アイテム記述を持つことは、何十万もの画像をホストするファッションwebプラットフォームにとって非常に興味深いことです。
本論文はファッション画像のキャプションを初めて行う手法の1つである。
InFashAIv1データセットには、約16万のアフリカのファッションアイテムイメージとそのタイトル、価格、一般的な説明が含まれている。
InFashAIv1に加えて、よく知られたDeepFashionデータセットも使用しました。
キャプションはCNNエンコーダとRNNデコーダで作られたShow and Tellモデルを使って生成される。
両データセットのモデルを共同でトレーニングすることで,アフリカのスタイルのファッションイメージのキャプション品質が向上し,西洋スタイルのデータからの移行学習が示唆された。
infashaiv1データセットはgithubでリリースされ、より多様性のある作業を促進する。
関連論文リスト
- BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design [14.588884182004277]
Fashion-Diffusion データセットは,多年にわたる厳格な努力の成果である。
データセットは100万以上の高品質なファッションイメージで構成されており、詳細なテキスト記述と組み合わせている。
T2Iに基づくファッションデザイン分野の標準化を促進するために,ファッションデザインモデルの性能評価のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-19T06:43:11Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - RedCaps: web-curated image-text data created by the people, for the
people [12.58157541985447]
Redditから収集された1200万のイメージテキストペアの大規模なデータセットであるRedCapsを紹介します。
Redditの画像やキャプションは、さまざまなオブジェクトやシーンを描いて記述している。
我々は、RedCapsで訓練されたキャプションモデルが、人間に好まれるリッチで多様なキャプションを生成し、多くの下流タスクに伝達する視覚表現を学ぶことを示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:34Z) - #PraCegoVer: A Large Dataset for Image Captioning in Portuguese [6.890235464357029]
PraCegoVerは、ポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
PraCegoVerと呼ばれる動きがインターネット上で発生し、ソーシャルメディアからユーザーを刺激して画像をパブリッシュし、#PraCegoVerにタグ付けし、コンテンツの簡単な説明を追加します。
論文 参考訳(メタデータ) (2021-03-21T19:55:46Z) - Attr2Style: A Transfer Learning Approach for Inferring Fashion Styles
via Apparel Attributes [7.330801562698453]
本稿では,十分な属性ベースの接頭辞を含むソースデータセットを用いて学習したトランスファーラーニングに基づく画像キャプションモデルを提案する。
私たちはこの事実を活用し、アテンションメカニズムを使用してエンコーダ-デコーダベースのフレームワークでモデルをトレーニングします。
私たちのモデルのための概念実証は、Myntraのパイロットで、一部の内部ユーザからフィードバックを受けています。
論文 参考訳(メタデータ) (2020-08-26T16:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。