論文の概要: MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2603.17360v1
- Date: Wed, 18 Mar 2026 04:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.515899
- Title: MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval
- Title(参考訳): MCoT-MVS:合成画像検索のためのマルチモーダル・チェーン・オブ・ソート推論によるマルチレベル視覚選択
- Authors: Xuri Ge, Chunhao Wang, Xindi Wang, Zheyun Qin, Zhumin Chen, Xin Xin,
- Abstract要約: Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
- 参考スコア(独自算出の注目度): 23.52156477012636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) aims to retrieve target images based on a reference image and modified texts. However, existing methods often struggle to extract the correct semantic cues from the reference image that best reflect the user's intent under textual modification prompts, resulting in interference from irrelevant visual noise. In this paper, we propose a novel Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning (MCoT-MVS) for CIR, integrating attention-aware multi-level vision features guided by reasoning cues from a multi-modal large language model (MLLM). Specifically, we leverage an MLLM to perform chain-of-thought reasoning on the multimodal composed input, generating the retained, removed, and target-inferred texts. These textual cues subsequently guide two reference visual attention selection modules to selectively extract discriminative patch-level and instance-level semantics from the reference image. Finally, to effectively fuse these multi-granular visual cues with the modified text and the imagined target description, we design a weighted hierarchical combination module to align the composed query with target images in a unified embedding space. Extensive experiments on two CIR benchmarks, namely CIRR and FashionIQ, demonstrate that our approach consistently outperforms existing methods and achieves new state-of-the-art performance. Code and trained models are publicly released.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
しかし、既存の手法では、テキスト修正プロンプトによるユーザの意図を最も反映した参照画像から正しい意味的手がかりを抽出するのに苦労することが多く、無関係な視覚ノイズから干渉する。
本稿では,マルチモーダル大言語モデル (MLLM) から導かれる多段階視覚機能を統合し,CIRのためのマルチモーダルチェイン・オブ・ソート推論 (MCoT-MVS) による新しい多段階視覚選択を提案する。
具体的には、MLLMを利用して、マルチモーダル合成入力の連鎖推論を行い、保持された、削除された、およびターゲット推論されたテキストを生成する。
これらのテキストキューは、2つの参照ビジュアルアテンション選択モジュールをガイドし、参照画像から識別パッチレベルとインスタンスレベルのセマンティクスを選択的に抽出する。
最後に,これらのマルチグラニュラー・ビジュアル・キューを修正テキストと想定対象記述とで効果的に融合させるため,重み付けされた階層的な組み合わせモジュールを設計し,合成されたクエリを対象画像と統合した埋め込み空間内に配置する。
CIRRとFashionIQという2つのCIRベンチマークの大規模な実験は、我々のアプローチが既存の手法を一貫して上回り、新しい最先端性能を実現することを実証している。
コードとトレーニングされたモデルは公開されています。
関連論文リスト
- Hierarchical Concept-to-Appearance Guidance for Multi-Subject Image Generation [22.845591588026366]
本稿では,高レベルの概念からきめ細かい外観まで,明示的で構造化された監視を提供するフレームワークを提案する。
概念レベルでは、VAEの参照機能をランダムに省略するVAEドロップアウトトレーニング戦略を導入する。
外観レベルでは、VLM由来の対応文を対応認識型マスキングアテンションモジュールに統合する。
論文 参考訳(メタデータ) (2026-02-03T12:13:29Z) - QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models [50.51641024244313]
本稿では,複数の画像を扱う場合の視覚的情報処理について検討する。
そこで本研究では,新たなゼロショットプロンプト手法であるQG-CoC(QG-CoC)を提案する。
マルチイメージおよびシングルイメージベンチマークのための各種オープンソースおよびクローズドソースMLLMについて評価を行った。
論文 参考訳(メタデータ) (2025-11-05T05:49:48Z) - From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning [27.117102717184597]
Multi-image Interleaved Reasoningは、複数の画像とその関連するテキストコンテキストを共同で理解し、推論するマルチモーダル大言語モデル(MLLM)の能力を改善することを目的としている。
MIRは、画像領域と対応するテキストを正確に関連付けるために、インターリーブされたテキストコンテキストを伴う複数の画像に対する共同推論を必要とする。
提案手法は, MIRベンチマークおよび他の確立されたベンチマークにおいて, モデル推論性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-21T11:19:02Z) - MCoT-RE: Multi-Faceted Chain-of-Thought and Re-Ranking for Training-Free Zero-Shot Composed Image Retrieval [32.33545237942899]
Composed Image Retrieval (CIR) は、ギャラリーから、参照画像と修正テキストを使用してターゲット画像を取得するタスクである。
トレーニング不要なゼロショットCIRフレームワークとして再ランク付けされたChain-of-Thought(MCoT-RE)を提案する。
論文 参考訳(メタデータ) (2025-07-17T06:22:49Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。