論文の概要: FACap: A Large-scale Fashion Dataset for Fine-grained Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2507.07135v1
- Date: Tue, 08 Jul 2025 23:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.136131
- Title: FACap: A Large-scale Fashion Dataset for Fine-grained Composed Image Retrieval
- Title(参考訳): FACap: きめ細かい画像検索のための大規模ファッションデータセット
- Authors: François Gardères, Shizhe Chen, Camille-Sovanneary Gauthier, Jean Ponce,
- Abstract要約: FACapは、大規模な、自動構築されたファッションドメインCIRデータセットである。
FashionBLIP-2は、FACap上の一般ドメインBLIP-2モデルを軽量アダプタで微調整する。
FashionBLIP-2は、Fashion IQベンチマークで追加の微調整なしで評価される。
- 参考スコア(独自算出の注目度): 40.19988037304243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The composed image retrieval (CIR) task is to retrieve target images given a reference image and a modification text. Recent methods for CIR leverage large pretrained vision-language models (VLMs) and achieve good performance on general-domain concepts like color and texture. However, they still struggle with application domains like fashion, because the rich and diverse vocabulary used in fashion requires specific fine-grained vision and language understanding. An additional difficulty is the lack of large-scale fashion datasets with detailed and relevant annotations, due to the expensive cost of manual annotation by specialists. To address these challenges, we introduce FACap, a large-scale, automatically constructed fashion-domain CIR dataset. It leverages web-sourced fashion images and a two-stage annotation pipeline powered by a VLM and a large language model (LLM) to generate accurate and detailed modification texts. Then, we propose a new CIR model FashionBLIP-2, which fine-tunes the general-domain BLIP-2 model on FACap with lightweight adapters and multi-head query-candidate matching to better account for fine-grained fashion-specific information. FashionBLIP-2 is evaluated with and without additional fine-tuning on the Fashion IQ benchmark and the enhanced evaluation dataset enhFashionIQ, leveraging our pipeline to obtain higher-quality annotations. Experimental results show that the combination of FashionBLIP-2 and pretraining with FACap significantly improves the model's performance in fashion CIR especially for retrieval with fine-grained modification texts, demonstrating the value of our dataset and approach in a highly demanding environment such as e-commerce websites. Code is available at https://fgxaos.github.io/facap-paper-website/.
- Abstract(参考訳): 合成画像検索(CIR)タスクは、参照画像と修正テキストとが与えられた対象画像を検索する。
CIRの最近の手法は、大きな事前学習された視覚言語モデル(VLM)を活用し、色やテクスチャといった一般的なドメイン概念において優れた性能を発揮する。
しかし、ファッションのようなアプリケーションドメインには相変わらず苦労している。なぜなら、ファッションで使われる多様で多様な語彙は、特定のきめ細かい視覚と言語理解を必要とするからだ。
その他の難点は、専門家による手動アノテーションのコストがかかるため、詳細かつ関連するアノテーションを備えた大規模なファッションデータセットが欠如していることである。
これらの課題に対処するために,大規模で自動構築されたファッションドメインCIRデータセットであるFACapを紹介した。
ウェブソースのファッションイメージと、VLMと大規模言語モデル(LLM)を利用した2段階のアノテーションパイプラインを活用して、正確で詳細な修正テキストを生成する。
そこで我々は,FACap上の一般ドメインBLIP-2モデルに,より軽量なアダプタとマルチヘッドクエリ候補マッチングを併用したCIRモデルFashionBLIP-2を提案する。
FashionBLIP-2 は Fashion IQ ベンチマークと拡張された評価データセット enhFashionIQ でさらに微調整することなく評価される。
実験結果から,FashionBLIP-2とFACapによる事前学習の組み合わせは,特に細かな修正テキストによる検索において,モデルの性能を著しく向上させ,我々のデータセットの価値を実証し,eコマースWebサイトのような要求の高い環境にアプローチすることを示唆した。
コードはhttps://fgxaos.github.io/facap-paper-website/で公開されている。
関連論文リスト
- good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval [10.156187875858995]
コンポジション画像検索(CIR)により、ユーザーは参照画像とテキスト修正を組み合わせることで画像を検索できる。
高品質な合成アノテーションを生成するために視覚言語モデルを活用した構造化パイプラインである good4cir を導入する。
その結果,パイプライン生成データセットに基づいてトレーニングしたCIRモデルの検索精度が向上した。
論文 参考訳(メタデータ) (2025-03-22T22:33:56Z) - ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - Dressing the Imagination: A Dataset for AI-Powered Translation of Text into Fashion Outfits and A Novel KAN Adapter for Enhanced Feature Adaptation [2.3010373219231495]
FLORAは4,330種類のファッション服とそれに対応するテキスト記述を含む最初の包括的データセットである。
第2のコントリビューションとして,Kolmogorov-Arnold Networks (KAN) を適応モジュールとして利用する Kan Adapters を導入する。
さらなる研究とコラボレーションを促進するため、我々はFLORAと実装コードの両方をオープンソース化します。
論文 参考訳(メタデータ) (2024-11-21T07:27:45Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Multimodal Quasi-AutoRegression: Forecasting the visual popularity of
new fashion products [18.753508811614644]
ファッション業界の急速な変化のため、ファッションにおけるトレンド検出は難しい課題である。
コンピュータビジョンネットワークによって抽出されたマルチモーダル多層パーセプトロン処理のカテゴリと視覚的特徴であるMuQARを提案する。
VISUELLEデータセットの比較研究によると、MuQARはWAPEで2.88%、MAEで3.04%の競争力を持つ。
論文 参考訳(メタデータ) (2022-04-08T11:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。