論文の概要: Chain-of-Thought Re-ranking for Image Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2509.14746v1
- Date: Thu, 18 Sep 2025 08:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.132333
- Title: Chain-of-Thought Re-ranking for Image Retrieval Tasks
- Title(参考訳): 画像検索作業における待ち行列の再評価
- Authors: Shangrong Wu, Yanghong Zhou, Yang Chen, Feng Zhang, P. Y. Mok,
- Abstract要約: そこで我々は,画像検索に対処する新しいChain-of-Thought Re-Ranking(CoTRR)手法を提案する。
MLLMがリストワイズ推論を行えるようにすることで,グローバル比較,一貫した推論,解釈可能な意思決定をサポートする。
提案手法は,テキスト・トゥ・イメージ検索(TIR),合成画像検索(CIR),チャットベースの画像検索(Chat-IR)など,3つの画像検索タスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 16.13448876168839
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image retrieval remains a fundamental yet challenging problem in computer vision. While recent advances in Multimodal Large Language Models (MLLMs) have demonstrated strong reasoning capabilities, existing methods typically employ them only for evaluation, without involving them directly in the ranking process. As a result, their rich multimodal reasoning abilities remain underutilized, leading to suboptimal performance. In this paper, we propose a novel Chain-of-Thought Re-Ranking (CoTRR) method to address this issue. Specifically, we design a listwise ranking prompt that enables MLLM to directly participate in re-ranking candidate images. This ranking process is grounded in an image evaluation prompt, which assesses how well each candidate aligns with users query. By allowing MLLM to perform listwise reasoning, our method supports global comparison, consistent reasoning, and interpretable decision-making - all of which are essential for accurate image retrieval. To enable structured and fine-grained analysis, we further introduce a query deconstruction prompt, which breaks down the original query into multiple semantic components. Extensive experiments on five datasets demonstrate the effectiveness of our CoTRR method, which achieves state-of-the-art performance across three image retrieval tasks, including text-to-image retrieval (TIR), composed image retrieval (CIR) and chat-based image retrieval (Chat-IR). Our code is available at https://github.com/freshfish15/CoTRR .
- Abstract(参考訳): 画像検索は、コンピュータビジョンにおける根本的な問題でありながら難しい問題である。
MLLM(Multimodal Large Language Models)の最近の進歩は、強力な推論能力を示しているが、既存の手法では、直接ランク付けプロセスに含めることなく、評価のためにのみ使用されるのが一般的である。
結果として、リッチなマルチモーダル推論能力は未利用のままであり、亜最適性能に繋がる。
本稿では,この問題に対処する新しいChain-of-Thought Re-Ranking(CoTRR)手法を提案する。
具体的には、MLLMが直接候補画像にランク付けできるリストワイズランキングプロンプトを設計する。
このランク付けプロセスは画像評価プロンプトに基づき、各候補がユーザクエリとどのように整合するかを評価する。
MLLMがリストワイズ推論を行えるようにすることで、我々はグローバル比較、一貫した推論、解釈可能な意思決定をサポートします。
構造化されたきめ細かな分析を可能にするために,クエリデコンストラクションプロンプトを導入し,元のクエリを複数のセマンティックコンポーネントに分解する。
5つのデータセットに対する大規模な実験により,テキスト・ツー・イメージ検索(TIR),合成画像検索(CIR),チャットベースの画像検索(Chat-IR)など,3つの画像検索タスクにおける最先端性能を実現するCoTRR法の有効性が示された。
私たちのコードはhttps://github.com/freshfish15/CoTRRで利用可能です。
関連論文リスト
- GenIR: Generative Visual Feedback for Mental Image Retrieval [6.813922846074993]
心的イメージ検索(MIR)の課題について検討する。
MIRは、ユーザーがイメージ検索エンジンとのマルチラウンドインタラクションを通じて、精神的に想定されたイメージの検索を洗練する現実的で過度に探索された環境をターゲットにしている。
本稿では,拡散に基づく画像生成を活用し,各ラウンドにおけるAIシステムの理解を明確化するための生成多ラウンド検索パラダイムであるGenIRを提案する。
論文 参考訳(メタデータ) (2025-06-06T16:28:03Z) - Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering [14.63910474388089]
QAの学習目標が探索段階の最適化に失敗するため, 「検索・回答」パイプラインはカスケードエラーに悩まされることが多い。
本稿では,検索した情報をQAに効果的に導入し,参照するための新しい手法を提案する。
提案手法は,RETVQAの最先端手法よりも3.7%,CLIPよりも14.5%,絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T14:17:09Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。