論文の概要: CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2502.20826v1
- Date: Fri, 28 Feb 2025 08:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:45.740632
- Title: CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval
- Title(参考訳): CoTMR:無訓練ゼロショット合成画像検索のためのマルチスケールマルチスケール推論
- Authors: Zelong Sun, Dong Jing, Zhiwu Lu,
- Abstract要約: Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。
我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
- 参考スコア(独自算出の注目度): 13.59418209417664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-Shot Composed Image Retrieval (ZS-CIR) aims to retrieve target images by integrating information from a composed query (reference image and modification text) without training samples. Existing methods primarily combine caption models and large language models (LLMs) to generate target captions based on composed queries but face various issues such as incompatibility, visual information loss, and insufficient reasoning. In this work, we propose CoTMR, a training-free framework crafted for ZS-CIR with novel Chain-of-thought (CoT) and Multi-scale Reasoning. Instead of relying on caption models for modality transformation, CoTMR employs the Large Vision-Language Model (LVLM) to achieve unified understanding and reasoning for composed queries. To enhance the reasoning reliability, we devise CIRCoT, which guides the LVLM through a step-by-step inference process using predefined subtasks. Considering that existing approaches focus solely on global-level reasoning, our CoTMR incorporates multi-scale reasoning to achieve more comprehensive inference via fine-grained predictions about the presence or absence of key elements at the object scale. Further, we design a Multi-Grained Scoring (MGS) mechanism, which integrates CLIP similarity scores of the above reasoning outputs with candidate images to realize precise retrieval. Extensive experiments demonstrate that our CoTMR not only drastically outperforms previous methods across four prominent benchmarks but also offers appealing interpretability.
- Abstract(参考訳): Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルを訓練することなく、合成クエリ(参照画像と修正テキスト)からの情報を統合してターゲット画像を取得することを目的としている。
既存の方法は、主にキャプションモデルと大言語モデル(LLM)を組み合わせて、合成クエリに基づいてターゲットキャプションを生成するが、非互換性、視覚情報損失、不十分な推論といった様々な問題に直面している。
本研究では,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案する。
モダリティ変換のキャプションモデルに頼る代わりに、CoTMRはLVLM(Large Vision-Language Model)を使用して、合成クエリの統一的な理解と推論を実現する。
推論信頼性を高めるために,事前に定義されたサブタスクを用いたステップバイステップ推論プロセスを通じてLVLMを誘導するCIRCoTを考案した。
既存のアプローチはグローバルレベルの推論にのみ焦点をあてているので、CoTMRは、オブジェクトスケールにおけるキー要素の存在や欠如に関する詳細な予測を通じて、より包括的な推論を実現するために、マルチスケール推論を取り入れています。
さらに、上記の推論出力のCLIP類似度スコアを候補画像と統合し、精度の高い検索を実現するための、Multi-Grained Scoring (MGS) 機構を設計する。
大規模な実験により、我々のCoTMRは4つの主要なベンチマークで過去の手法を大幅に上回っているだけでなく、魅力的な解釈性も提供しています。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model
via Cross-modal Alignment [2.389598109913754]
我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。