論文の概要: ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images
- arxiv url: http://arxiv.org/abs/2411.16096v1
- Date: Mon, 25 Nov 2024 05:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:37.564173
- Title: ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images
- Title(参考訳): ENCLIP:限られたデータと低品質の画像を用いたファッションマルチモーダル検索のためのクラスタリングとクラスタリングに基づくコントラスト言語-画像事前学習
- Authors: Prithviraj Purushottam Naik, Rohit Agarwal,
- Abstract要約: 本稿では,CLIP(Contrastive Language- Image Pretraining)モデルの性能向上を目的とした,ENCLIPと呼ばれる革新的なアプローチを提案する。
これは、限られたデータ可用性と低品質の画像によって引き起こされる課題に対処することに焦点を当てている。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License:
- Abstract: Multimodal search has revolutionized the fashion industry, providing a seamless and intuitive way for users to discover and explore fashion items. Based on their preferences, style, or specific attributes, users can search for products by combining text and image information. Text-to-image searches enable users to find visually similar items or describe products using natural language. This paper presents an innovative approach called ENCLIP, for enhancing the performance of the Contrastive Language-Image Pretraining (CLIP) model, specifically in Multimodal Search targeted towards the domain of fashion intelligence. This method focuses on addressing the challenges posed by limited data availability and low-quality images. This paper proposes an algorithm that involves training and ensembling multiple instances of the CLIP model, and leveraging clustering techniques to group similar images together. The experimental findings presented in this study provide evidence of the effectiveness of the methodology. This approach unlocks the potential of CLIP in the domain of fashion intelligence, where data scarcity and image quality issues are prevalent. Overall, the ENCLIP method represents a valuable contribution to the field of fashion intelligence and provides a practical solution for optimizing the CLIP model in scenarios with limited data and low-quality images.
- Abstract(参考訳): マルチモーダル検索はファッション業界に革命をもたらし、ユーザーがファッションアイテムを発見して探求するためのシームレスで直感的な方法を提供する。
好み、スタイル、特定の属性に基づいて、ユーザーはテキストと画像情報を組み合わせて商品を検索できる。
テキストから画像への検索では、視覚的に類似したアイテムを見つけたり、自然言語を使って製品を記述することができる。
本稿では,特にファッションインテリジェンス分野を対象としたマルチモーダル検索において,コントラスト言語-画像事前学習(CLIP)モデルの性能向上のためのENCLIPと呼ばれる革新的なアプローチを提案する。
本手法は,限られたデータ可用性と低品質画像による課題に対処することに焦点を当てる。
本稿では,CLIPモデルの複数のインスタンスを学習・アンサンブルし,クラスタリング技術を利用して類似画像をグループ化するアルゴリズムを提案する。
本研究で示された実験結果は,方法論の有効性を示すものである。
このアプローチは、データの不足と画質の問題が頻発するファッションインテリジェンス分野におけるCLIPの可能性を解き放つ。
全体として、ENCLIP法はファッションインテリジェンス分野への貴重な貢献であり、限られたデータと低品質の画像のシナリオでCLIPモデルを最適化するための実用的なソリューションを提供する。
関連論文リスト
- Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Exploiting CLIP-based Multi-modal Approach for Artwork Classification
and Retrieval [29.419743866789187]
我々は、Web上の公開リソースからクロールされたアート画像のデータセットであるNoisyArtデータセットに対して、徹底的な実験を行う。
このようなデータセット上でCLIPは、(ゼロショット)分類に関する印象的な結果と、アート・トゥ・アートワークと記述・トゥ・アートドメインの両方において有望な結果を達成する。
論文 参考訳(メタデータ) (2023-09-21T14:29:44Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback [36.623221002330226]
マルチターン自然言語による対話型ファッション画像検索の課題について検討する。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T06:34:25Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。