論文の概要: FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal
Retrieval
- arxiv url: http://arxiv.org/abs/2005.09801v2
- Date: Fri, 29 May 2020 05:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:23:31.078985
- Title: FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal
Retrieval
- Title(参考訳): FashionBERT: クロスモーダル検索のための適応損失とテキストと画像マッチング
- Authors: Dehong Gao, Linbo Jin, Ben Chen, Minghui Qiu, Peng Li, Yi Wei, Yi Hu
and Hao Wang
- Abstract要約: FashionBERTはテキストや画像のハイレベルな表現を学習する。
FashionBERTは、ベースラインや最先端のアプローチよりもパフォーマンスが大幅に向上している。
- 参考スコア(独自算出の注目度): 31.822218310945036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the text and image matching in cross-modal
retrieval of the fashion industry. Different from the matching in the general
domain, the fashion matching is required to pay much more attention to the
fine-grained information in the fashion images and texts. Pioneer approaches
detect the region of interests (i.e., RoIs) from images and use the RoI
embeddings as image representations. In general, RoIs tend to represent the
"object-level" information in the fashion images, while fashion texts are prone
to describe more detailed information, e.g. styles, attributes. RoIs are thus
not fine-grained enough for fashion text and image matching. To this end, we
propose FashionBERT, which leverages patches as image features. With the
pre-trained BERT model as the backbone network, FashionBERT learns high level
representations of texts and images. Meanwhile, we propose an adaptive loss to
trade off multitask learning in the FashionBERT modeling. Two tasks (i.e., text
and image matching and cross-modal retrieval) are incorporated to evaluate
FashionBERT. On the public dataset, experiments demonstrate FashionBERT
achieves significant improvements in performances than the baseline and
state-of-the-art approaches. In practice, FashionBERT is applied in a concrete
cross-modal retrieval application. We provide the detailed matching performance
and inference efficiency analysis.
- Abstract(参考訳): 本稿では,ファッション産業のクロスモーダル検索におけるテキストと画像マッチングについて述べる。
一般的なドメインのマッチングとは異なり、ファッションマッチングはファッション画像やテキストの詳細な情報にもっと注意を払う必要がある。
Pioneerのアプローチは、画像から関心領域(すなわちRoI)を検出し、画像表現としてRoI埋め込みを使用する。
一般的に、RoIはファッション画像の「オブジェクトレベル」の情報を表す傾向があり、ファッションテキストはスタイル、属性などより詳細な情報を記述する傾向にある。
したがって、RoIはファッションテキストや画像マッチングに十分な粒度ではない。
そこで,本稿では,パッチを画像特徴として活用するfashionbertを提案する。
トレーニング済みのBERTモデルをバックボーンネットワークとして、FashionBERTはテキストや画像のハイレベルな表現を学習する。
一方,fashionbertモデリングでは,マルチタスク学習をトレードオフする適応的損失を提案する。
FashionBERTを評価するために、テキストと画像マッチングとクロスモーダル検索という2つのタスクが組み込まれている。
公開データセットでは、FashionBERTがベースラインや最先端のアプローチよりもパフォーマンスが大幅に向上したことを実証している。
実際には、FashionBERTは具体的なクロスモーダル検索アプリケーションに適用される。
詳細なマッチング性能と推論効率分析を提供する。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Social Media Fashion Knowledge Extraction as Captioning [61.41631195195498]
ソーシャルメディアにおけるファッション知識抽出の課題について検討する。
ファッション知識を文変換法を用いて自然言語キャプションに変換する。
このフレームワークは,ソーシャルメディア投稿から直接文ベースのファッション知識を生成することを目的としている。
論文 参考訳(メタデータ) (2023-09-28T09:07:48Z) - FashionTex: Controllable Virtual Try-on with Text and Texture [29.7855591607239]
テキストとテクスチャの両方の利点を多段階のファッション操作に組み合わせたマルチモーダル・インタラクティブ・セッティングを提案する。
FashionTexフレームワークは、アノテーション付きのペアトレーニングデータなしで、布の種類や局所的なテクスチャパターンを意味的に制御することができる。
論文 参考訳(メタデータ) (2023-05-08T04:10:36Z) - FashionSAP: Symbols and Attributes Prompt for Fine-grained Fashion
Vision-Language Pre-training [12.652002299515864]
ファッションシンボルと属性プロンプト(FashionSAP)に基づく、きめ細かいファッションビジョン言語事前学習法を提案する。
まず,新しい抽象的なファッション概念層であるファッションシンボルを,異なるファッションアイテムを表現するために提案する。
次に、モデルにファッションアイテムの特定の属性を明示的に学習させる属性プロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-04-11T08:20:17Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal
Fashion Design [66.68194916359309]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。
MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。
ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文 参考訳(メタデータ) (2022-08-11T03:44:02Z) - FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.49630356651454]
ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。
特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。
大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-17T12:06:27Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback [36.623221002330226]
マルチターン自然言語による対話型ファッション画像検索の課題について検討する。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T06:34:25Z) - A Strong Baseline for Fashion Retrieval with Person Re-Identification
Models [0.0]
ファッション検索は、画像に含まれるファッションアイテムの正確なマッチングを見つけるのに難しいタスクである。
ファッション検索のためのシンプルなベースラインモデルを導入する。
Street2ShopとDeepFashionのデータセットで詳細な実験を行い、その結果を検証する。
論文 参考訳(メタデータ) (2020-03-09T12:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。