論文の概要: FashionViL: Fashion-Focused Vision-and-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2207.08150v1
- Date: Sun, 17 Jul 2022 12:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:32:15.536563
- Title: FashionViL: Fashion-Focused Vision-and-Language Representation Learning
- Title(参考訳): fashionvil: ファッション中心のビジョンと言語表現学習
- Authors: Xiao Han, Licheng Yu, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang
- Abstract要約: ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。
特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。
大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
- 参考スコア(独自算出の注目度): 129.49630356651454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Vision-and-Language (V+L) pre-training for representation
learning has proven to be effective in boosting various downstream V+L tasks.
However, when it comes to the fashion domain, existing V+L methods are
inadequate as they overlook the unique characteristics of both the fashion V+L
data and downstream tasks. In this work, we propose a novel fashion-focused V+L
representation learning framework, dubbed as FashionViL. It contains two novel
fashion-specific pre-training tasks designed particularly to exploit two
intrinsic attributes with fashion V+L data. First, in contrast to other domains
where a V+L data point contains only a single image-text pair, there could be
multiple images in the fashion domain. We thus propose a Multi-View Contrastive
Learning task for pulling closer the visual representation of one image to the
compositional multimodal representation of another image+text. Second, fashion
text (e.g., product description) often contains rich fine-grained concepts
(attributes/noun phrases). To exploit this, a Pseudo-Attributes Classification
task is introduced to encourage the learned unimodal (visual/textual)
representations of the same concept to be adjacent. Further, fashion V+L tasks
uniquely include ones that do not conform to the common one-stream or
two-stream architectures (e.g., text-guided image retrieval). We thus propose a
flexible, versatile V+L model architecture consisting of a modality-agnostic
Transformer so that it can be flexibly adapted to any downstream tasks.
Extensive experiments show that our FashionViL achieves a new state of the art
across five downstream tasks. Code is available at
https://github.com/BrandonHanx/mmf.
- Abstract(参考訳): 表現学習のための大規模ビジョン・アンド・ランゲージ(V+L)事前学習は、下流のV+Lタスクの強化に有効であることが証明されている。
しかし、ファッション領域に関しては、既存のV+Lメソッドは、ファッションV+Lデータと下流タスクの両方のユニークな特徴を見落としているため、不十分である。
本研究ではファッション中心のV+L表現学習フレームワークFashionViLを提案する。
特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。
まず、v+lデータポイントが1つの画像テキストペアのみを含む他のドメインとは対照的に、ファッションドメインには複数のイメージが存在する可能性がある。
そこで本研究では,画像の視覚的表現を他の画像+テキストの構成的マルチモーダル表現に近づける多視点コントラスト学習タスクを提案する。
第二に、ファッションテキスト(例:製品記述)は、しばしば豊富なきめ細かい概念(属性/名詞句)を含んでいる。
これを利用するため、疑似属性分類タスクを導入し、同じ概念の学習されたユニモーダル(視覚/テキスト)表現に隣接することを奨励する。
さらに、ファッションV+Lタスクは、共通の1ストリームまたは2ストリームアーキテクチャ(例えば、テキスト誘導画像検索)に準拠していないタスクを独自に含む。
そこで本研究では,任意の下流タスクに柔軟に適応できるように,モダリティに依存しないトランスフォーマで構成されるフレキシブルで汎用的なV+Lモデルアーキテクチャを提案する。
大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
コードはhttps://github.com/brandonhanx/mmfで入手できる。
関連論文リスト
- ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。