論文の概要: QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2507.12416v1
- Date: Wed, 16 Jul 2025 17:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.483283
- Title: QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval
- Title(参考訳): QuRe: 合成画像検索におけるハード負サンプリングによるクエリ関連検索
- Authors: Jaehyun Kwak, Ramahdani Muhammad Izaaz Inhar, Se-Young Yun, Sung-Ju Lee,
- Abstract要約: Composed Image Retrieval (CIR)は、参照画像に基づいて関連画像を検索し、所望の修正を記述したテキストを添付する。
この制限は、ほとんどの手法が対照的な学習を用いて、対象画像を正のものとして扱い、バッチ内の他のすべての画像を負のものとして扱うために生じる。
本稿では,疑似否定を減らすために報酬モデルの対象を最適化する,ハードネガティブサンプリング(QuRe)によるクエリ関連検索を提案する。
- 参考スコア(独自算出の注目度): 24.699637275626998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) retrieves relevant images based on a reference image and accompanying text describing desired modifications. However, existing CIR methods only focus on retrieving the target image and disregard the relevance of other images. This limitation arises because most methods employing contrastive learning-which treats the target image as positive and all other images in the batch as negatives-can inadvertently include false negatives. This may result in retrieving irrelevant images, reducing user satisfaction even when the target image is retrieved. To address this issue, we propose Query-Relevant Retrieval through Hard Negative Sampling (QuRe), which optimizes a reward model objective to reduce false negatives. Additionally, we introduce a hard negative sampling strategy that selects images positioned between two steep drops in relevance scores following the target image, to effectively filter false negatives. In order to evaluate CIR models on their alignment with human satisfaction, we create Human-Preference FashionIQ (HP-FashionIQ), a new dataset that explicitly captures user preferences beyond target retrieval. Extensive experiments demonstrate that QuRe achieves state-of-the-art performance on FashionIQ and CIRR datasets while exhibiting the strongest alignment with human preferences on the HP-FashionIQ dataset. The source code is available at https://github.com/jackwaky/QuRe.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、参照画像に基づいて関連画像を検索し、所望の修正を記述したテキストを添付する。
しかし、既存のCIR手法では、対象画像の検索と、他の画像の関連性を無視してのみ焦点が当てられている。
この制限は、ほとんどの手法が対照的な学習法を用いて、対象の画像を正として扱い、バッチ内の他のすべての画像を負として扱い、必然的に偽の負を含まないために生じる。
これにより、無関係な画像が検索され、対象画像が検索された場合でもユーザの満足度が低下する。
この問題に対処するために,疑似陰性を減らすために報酬モデルの対象を最適化するQuRe (Query-Relevant Retrieval)を提案する。
さらに、ターゲット画像に追従する関連点の2つの急降下点の間に位置する画像を選択し、偽陰性を効果的にフィルタするハードネガティブサンプリング戦略を導入する。
ヒトの満足度に合わせてCIRモデルを評価するために、ターゲット検索以上のユーザの嗜好を明示的にキャプチャする新しいデータセットであるHuman-Preference FashionIQ(HP-FashionIQ)を作成する。
大規模な実験により、QuReはFashionIQデータセットとCIRRデータセットの最先端のパフォーマンスを達成し、HP-FashionIQデータセットの人間の好みと最強の一致を示した。
ソースコードはhttps://github.com/jackwaky/QuRe.comで入手できる。
関連論文リスト
- Zero Shot Composed Image Retrieval [0.0]
合成画像検索(CIR)により、ユーザは、きめ細かいテキスト編集を施すことで、ターゲット画像を見つけることができる。
Zero-shot CIRは、イメージとテキストを別途トレーニング済みの視覚言語エンコーダで埋め込むもので、FashionIQベンチマークで20-25%のRecall@10にしか達しない。
我々は、視覚的特徴とテキスト的特徴を1つの埋め込みに融合する軽量Q-FormerでBLIP-2を微調整することで、これを改善した。
論文 参考訳(メタデータ) (2025-06-07T00:38:43Z) - Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - NCL-CIR: Noise-aware Contrastive Learning for Composed Image Retrieval [16.460121977322224]
Composed Image Retrieval (CIR)は、画像と修正テキストを組み合わせてターゲットをピンポイントするマルチモーダルクエリを用いて、ターゲット画像の検索を試みる。
ペアは、不正確な修正テキスト、品質の低いターゲット画像、アノテーションエラーなどの問題により、部分的にあるいは完全に一致しないことが多い。
重み補償ブロック (WCB) と雑音対フィルタブロック (NFB) の2つの主要な構成要素からなるCIR (NCL-CIR) のためのノイズ対応コントラスト学習法を提案する。
論文 参考訳(メタデータ) (2025-04-06T03:27:23Z) - Active Learning for Finely-Categorized Image-Text Retrieval by Selecting Hard Negative Unpaired Samples [7.883521157895832]
画像テキスト検索(ITR)モデルをトレーニングするには、十分な量のペアデータを確保することが重要である。
ITRのための能動的学習アルゴリズムを提案し、ペア化されたデータを低コストで収集する。
提案手法の有効性をFlickr30KおよびMS-COCOデータセットで検証した。
論文 参考訳(メタデータ) (2024-05-25T16:50:33Z) - Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives [20.37803751979975]
Composed Image Retrieval (CIR)タスクは、参照画像と修正テキストからなる合成クエリを使用してターゲット画像を取得することを目的としている。
マルチモーダルな大言語モデルを用いてCIR用三重項を生成するデータ生成手法を提案する。
提案手法は, 正と負を効果的にスケールし, FashionIQ と CIRR の両方のデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-17T12:30:54Z) - VQA4CIR: Boosting Composed Image Retrieval with Visual Question
Answering [68.47402250389685]
この作業は、CIRのパフォーマンスを高めるために、Visual Question Answering(VQA)の視点を提供する。
結果として生じるVQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。
実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T15:56:08Z) - Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection [4.0208298639821525]
ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
論文 参考訳(メタデータ) (2023-11-01T04:04:34Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Inverse Problems Leveraging Pre-trained Contrastive Representations [88.70821497369785]
破損したデータの表現を復元するための新しい逆問題群について検討する。
コントラスト目的を用いた教師付きインバージョン手法を提案する。
提案手法は,幅広いフォワード演算子においてラベル付きデータのごく一部であっても,エンド・ツー・エンドのベースラインよりも優れる。
論文 参考訳(メタデータ) (2021-10-14T15:06:30Z) - Learning Conditional Knowledge Distillation for Degraded-Reference Image
Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。
DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。
私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文 参考訳(メタデータ) (2021-08-18T02:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。