論文の概要: Fashion Image-to-Image Translation for Complementary Item Retrieval
- arxiv url: http://arxiv.org/abs/2408.09847v3
- Date: Tue, 24 Sep 2024 13:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:22:24.375948
- Title: Fashion Image-to-Image Translation for Complementary Item Retrieval
- Title(参考訳): 補完項目検索のためのファッション画像から画像への変換
- Authors: Matteo Attimonelli, Claudio Pomo, Dietmar Jannach, Tommaso Di Noia,
- Abstract要約: 本稿では,ジェネレーティブ・コンパティビリティ・モデル(GeCo)を提案する。
3つのデータセットの評価によると、GeCoは最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 13.88174783842901
- License:
- Abstract: The increasing demand for online fashion retail has boosted research in fashion compatibility modeling and item retrieval, focusing on matching user queries (textual descriptions or reference images) with compatible fashion items. A key challenge is top-bottom retrieval, where precise compatibility modeling is essential. Traditional methods, often based on Bayesian Personalized Ranking (BPR), have shown limited performance. Recent efforts have explored using generative models in compatibility modeling and item retrieval, where generated images serve as additional inputs. However, these approaches often overlook the quality of generated images, which could be crucial for model performance. Additionally, generative models typically require large datasets, posing challenges when such data is scarce. To address these issues, we introduce the Generative Compatibility Model (GeCo), a two-stage approach that improves fashion image retrieval through paired image-to-image translation. First, the Complementary Item Generation Model (CIGM), built on Conditional Generative Adversarial Networks (GANs), generates target item images (e.g., bottoms) from seed items (e.g., tops), offering conditioning signals for retrieval. These generated samples are then integrated into GeCo, enhancing compatibility modeling and retrieval accuracy. Evaluations on three datasets show that GeCo outperforms state-of-the-art baselines. Key contributions include: (i) the GeCo model utilizing paired image-to-image translation within the Composed Image Retrieval framework, (ii) comprehensive evaluations on benchmark datasets, and (iii) the release of a new Fashion Taobao dataset designed for top-bottom retrieval, promoting further research.
- Abstract(参考訳): オンラインファッション小売に対する需要の高まりにより、ファッションの整合性モデリングやアイテム検索の研究が促進され、ユーザクエリ(テキスト記述や参照画像)と互換性のあるファッションアイテムとのマッチングに焦点が当てられている。
重要な課題はトップボトム検索であり、正確な互換性モデリングが不可欠である。
ベイジアン・パーソナライズド・ランキング(BPR)に基づく伝統的な手法は、限られた性能を示してきた。
最近の研究は、生成した画像が追加入力として機能する、互換性モデリングとアイテム検索における生成モデルの利用について検討している。
しかし、これらのアプローチは、しばしば生成された画像の品質を見落としており、それはモデルの性能に不可欠である。
さらに、生成モデルは一般的に大きなデータセットを必要とし、そのようなデータが不足している場合に課題を提起する。
これらの問題に対処するために,2段階のアプローチであるジェネレーティブ・コンパティビリティ・モデル(GeCo)を導入する。
まず, コンディショナル・ジェネレーション・アダクティブ・アダクショナル・ネットワーク(GAN)上に構築された補完的アイテム生成モデル(CIGM)を用いて, シード項目(eg, tops)から対象項目画像(eg, bottoms)を生成し, 検索のための条件信号を提供する。
これらの生成されたサンプルはGeCoに統合され、互換性モデリングと検索精度が向上する。
3つのデータセットの評価によると、GeCoは最先端のベースラインを上回っている。
主な貢献は以下の通り。
(i)合成画像検索フレームワークにおける画像と画像のペア変換を利用したGeCoモデル
(二)ベンチマークデータセットの総合評価、及び
(三)トップボトム検索のための新しいファッションタオオデータセットのリリースにより、さらなる研究が進められた。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Self-Enhancement Improves Text-Image Retrieval in Foundation
Visual-Language Models [33.008325765051865]
クロスモーダル基盤モデルは、ドメイン固有の検索タスクに必要な重要な属性に焦点を合わせない。
本稿では,CLIP-ViT/G-14をベースとした自己拡張フレームワークA3Rを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:25:38Z) - Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。
M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-26T17:58:39Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - A Strong Baseline for Fashion Retrieval with Person Re-Identification
Models [0.0]
ファッション検索は、画像に含まれるファッションアイテムの正確なマッチングを見つけるのに難しいタスクである。
ファッション検索のためのシンプルなベースラインモデルを導入する。
Street2ShopとDeepFashionのデータセットで詳細な実験を行い、その結果を検証する。
論文 参考訳(メタデータ) (2020-03-09T12:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。