論文の概要: FashionFAE: Fine-grained Attributes Enhanced Fashion Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2412.19997v1
- Date: Sat, 28 Dec 2024 03:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:41.621208
- Title: FashionFAE: Fine-grained Attributes Enhanced Fashion Vision-Language Pre-training
- Title(参考訳): FashionFAE: Fashion Vision-Language Pre-trainingを強化した微粒化属性
- Authors: Jiale Huang, Dehong Gao, Jinxia Zhang, Zechao Zhan, Yang Hu, Xin Wang,
- Abstract要約: 本稿では,ファッションデータの詳細な特徴に着目した,ファッション領域のための新しいアプローチを提案する。
属性強調テキスト予測タスクを提案し, 項目の微細な属性を予測する。
属性駆動型画像再構成タスクが提案され,モデルの細粒度化がさらに促進される。
- 参考スコア(独自算出の注目度): 9.149799210311468
- License:
- Abstract: Large-scale Vision-Language Pre-training (VLP) has demonstrated remarkable success in the general domain. However, in the fashion domain, items are distinguished by fine-grained attributes like texture and material, which are crucial for tasks such as retrieval. Existing models often fail to leverage these fine-grained attributes from both text and image modalities. To address the above issues, we propose a novel approach for the fashion domain, Fine-grained Attributes Enhanced VLP (FashionFAE), which focuses on the detailed characteristics of fashion data. An attribute-emphasized text prediction task is proposed to predict fine-grained attributes of the items. This forces the model to focus on the salient attributes from the text modality. Additionally, a novel attribute-promoted image reconstruction task is proposed, which further enhances the fine-grained ability of the model by leveraging the representative attributes from the image modality. Extensive experiments show that FashionFAE significantly outperforms State-Of-The-Art (SOTA) methods, achieving 2.9% and 5.2% improvements in retrieval on sub-test and full test sets, respectively, and a 1.6% average improvement in recognition tasks.
- Abstract(参考訳): 大規模ビジョンランゲージ事前訓練(VLP)は,一般領域において顕著な成功を収めた。
しかし、ファッション分野においては、アイテムはテクスチャや素材などのきめ細かい属性によって区別されるため、検索などの作業に欠かせない。
既存のモデルは、テキストと画像のモダリティの両方からこれらの細かい属性を活用できないことが多い。
以上の課題に対処するため,ファッションデータの詳細な特徴に着目したファシオンFAE(FashionFAE)という,ファッション分野の新たなアプローチを提案する。
属性強調テキスト予測タスクを提案し, 項目の微細な属性を予測する。
これにより、モデルはテキストのモダリティから適切な属性に集中せざるを得なくなる。
さらに,画像のモダリティから代表属性を活用することで,モデルの細粒度化能力をさらに向上する,新たな属性駆動型画像再構成タスクを提案する。
大規模な実験により、FashionFAE は State-Of-The-Art (SOTA) 法を著しく上回り、それぞれサブテストおよびフルテストセットでの検索において 2.9% と 5.2% の改善、認識タスクの平均 1.6% が達成された。
関連論文リスト
- CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.46562066023117]
本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。
本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。
提案手法はパラメータ効率の微調整によりパラメータ記憶に0.7%しか加えず,拡張性と適応性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-08T08:36:12Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Multi-modal Learnable Queries for Image Aesthetics Assessment [55.28571422062623]
本稿では,マルチモーダル学習可能なクエリを用いて,マルチモーダル事前学習機能から美学関連の特徴を抽出するMMLQを提案する。
MMLQはマルチモーダルIAAで新たな最先端性能を実現し、SRCCとPLCCでそれぞれ7.7%と8.3%を上回りました。
論文 参考訳(メタデータ) (2024-05-02T14:31:47Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文 参考訳(メタデータ) (2024-03-26T12:53:10Z) - Multi-modal Attribute Prompting for Vision-Language Models [40.39559705414497]
VLM(Pre-trained Vision-Language Models)は、タスクをダウンストリームする強力な一般化能力を示すが、少数のシナリオでは苦労する。
既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。
テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。
論文 参考訳(メタデータ) (2024-03-01T01:28:10Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文 参考訳(メタデータ) (2022-12-27T05:28:38Z) - Fashion Captioning: Towards Generating Accurate Descriptions with
Semantic Rewards [41.04264950157818]
本研究の目的は、正確かつ表現力のあるファッションキャプションのための新しい学習フレームワークを開発することである。
まず属性を識別し,属性レベルの意味的報酬(ALS)と文レベルの意味的報酬(SLS)をメトリクスとして導入し,テキスト記述の質を向上させる。
論文 参考訳(メタデータ) (2020-08-06T14:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。