論文の概要: Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives
- arxiv url: http://arxiv.org/abs/2404.11317v2
- Date: Wed, 7 Aug 2024 13:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 15:25:48.721214
- Title: Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives
- Title(参考訳): 正負のスケーリングによるコントラスト学習による合成画像検索の改善
- Authors: Zhangchi Feng, Richong Zhang, Zhijie Nie,
- Abstract要約: Composed Image Retrieval (CIR)タスクは、参照画像と修正テキストからなる合成クエリを使用してターゲット画像を取得することを目的としている。
マルチモーダルな大言語モデルを用いてCIR用三重項を生成するデータ生成手法を提案する。
提案手法は, 正と負を効果的にスケールし, FashionIQ と CIRR の両方のデータセットで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 20.37803751979975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Composed Image Retrieval (CIR) task aims to retrieve target images using a composed query consisting of a reference image and a modified text. Advanced methods often utilize contrastive learning as the optimization objective, which benefits from adequate positive and negative examples. However, the triplet for CIR incurs high manual annotation costs, resulting in limited positive examples. Furthermore, existing methods commonly use in-batch negative sampling, which reduces the negative number available for the model. To address the problem of lack of positives, we propose a data generation method by leveraging a multi-modal large language model to construct triplets for CIR. To introduce more negatives during fine-tuning, we design a two-stage fine-tuning framework for CIR, whose second stage introduces plenty of static representations of negatives to optimize the representation space rapidly. The above two improvements can be effectively stacked and designed to be plug-and-play, easily applied to existing CIR models without changing their original architectures. Extensive experiments and ablation analysis demonstrate that our method effectively scales positives and negatives and achieves state-of-the-art results on both FashionIQ and CIRR datasets. In addition, our method also performs well in zero-shot composed image retrieval, providing a new CIR solution for the low-resources scenario. Our code and data are released at https://github.com/BUAADreamer/SPN4CIR.
- Abstract(参考訳): Composed Image Retrieval (CIR)タスクは、参照画像と修正テキストからなる合成クエリを使用してターゲット画像を取得することを目的としている。
高度な手法はしばしば、適切な正と負の例から恩恵を受ける最適化の目的として対照的な学習を利用する。
しかし、CIRの三重項は、高い手動アノテーションコストを発生させ、限られた正の例をもたらす。
さらに、既存の手法では、バッチ内の負のサンプリングが一般的であり、モデルで利用できる負の数を減少させる。
正の欠如に対処するために,マルチモーダルな大言語モデルを用いてCIR用三重項を生成するデータ生成手法を提案する。
そこで我々は,2段目のCIRのための2段階の微調整フレームワークを設計し,その2段目では多くの静的な否定表現を導入し,表現空間を高速に最適化する。
上記の2つの改善は効果的に積み重ねられ、プラグイン・アンド・プレイとして設計され、元のアーキテクチャを変更することなく既存のCIRモデルに容易に適用できる。
拡張実験とアブレーション解析により,本手法は正と負を効果的にスケールし,FashionIQとCIRRの両方のデータセットで最先端の結果が得られることを示した。
さらに,提案手法はゼロショット合成画像検索でも良好に機能し,低リソースシナリオに新たなCIRソリューションを提供する。
私たちのコードとデータはhttps://github.com/BUAADreamer/SPN4CIRで公開されています。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。