論文の概要: Enhancing Supervised Composed Image Retrieval via Reasoning-Augmented Representation Engineering
- arxiv url: http://arxiv.org/abs/2508.11272v1
- Date: Fri, 15 Aug 2025 07:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.778076
- Title: Enhancing Supervised Composed Image Retrieval via Reasoning-Augmented Representation Engineering
- Title(参考訳): Reasoning-Augmented Representation Engineering による教師付き合成画像検索の強化
- Authors: Jun Li, Kai Li, Shaoguo Liu, Tingting Gao,
- Abstract要約: 学習自由化を伴うピラミッドマッチングモデルを含むフレームワークを提案する。
表現工学にヒントを得て,COTデータから表現を抽出し,LVLMに注入した。
CIRベンチマークの実験では、PTTFRが教師付きCIRタスクにおける最先端の手法を超越していることが示されている。
- 参考スコア(独自算出の注目度): 15.191542305783702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) presents a significant challenge as it requires jointly understanding a reference image and a modified textual instruction to find relevant target images. Some existing methods attempt to use a two-stage approach to further refine retrieval results. However, this often requires additional training of a ranking model. Despite the success of Chain-of-Thought (CoT) techniques in reducing training costs for language models, their application in CIR tasks remains limited -- compressing visual information into text or relying on elaborate prompt designs. Besides, existing works only utilize it for zero-shot CIR, as it is challenging to achieve satisfactory results in supervised CIR with a well-trained model. In this work, we proposed a framework that includes the Pyramid Matching Model with Training-Free Refinement (PMTFR) to address these challenges. Through a simple but effective module called Pyramid Patcher, we enhanced the Pyramid Matching Model's understanding of visual information at different granularities. Inspired by representation engineering, we extracted representations from COT data and injected them into the LVLMs. This approach allowed us to obtain refined retrieval scores in the Training-Free Refinement paradigm without relying on explicit textual reasoning, further enhancing performance. Extensive experiments on CIR benchmarks demonstrate that PMTFR surpasses state-of-the-art methods in supervised CIR tasks. The code will be made public.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と修正されたテキスト命令を共同で理解する必要があるため、重要な課題を提示する。
既存の手法では、検索結果をさらに洗練するために2段階のアプローチを試みている。
しかし、これはしばしばランキングモデルの追加のトレーニングを必要とする。
言語モデルのトレーニングコストを削減したChain-of-Thought(CoT)技術の成功にもかかわらず、CIRタスクにおけるそれらの応用は限定的であり、視覚情報をテキストに圧縮したり、精巧なプロンプト設計に依存する。
さらに、既存の研究はゼロショットCIRでしか利用できないが、十分に訓練されたモデルで教師付きCIRで満足な結果を得ることは困難である。
本研究では,これらの課題に対処するため,PMTFRを用いたピラミッドマッチングモデルを提案する。
パッチャーと呼ばれる単純だが効果的なモジュールによって、異なる粒度の視覚情報に対するピラミッドマッチングモデルの理解が強化された。
表現工学にヒントを得て,COTデータから表現を抽出し,LVLMに注入した。
この手法により、明示的なテキスト推論に頼ることなく、学習自由化パラダイムで洗練された検索スコアを得られるようになり、性能がさらに向上する。
CIRベンチマークの大規模な実験は、PTTFRが監督されたCIRタスクにおける最先端の手法を超越していることを示している。
コードは公開されます。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。