論文の概要: CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2601.03728v1
- Date: Wed, 07 Jan 2026 09:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.169487
- Title: CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval
- Title(参考訳): CSMCIR:CoT強調対称アライメントとメモリバンクによる画像検索
- Authors: Zhipeng Qian, Zihan Liang, Yufei Ma, Ben Chen, Huangyu Dai, Yiwei Ma, Jiayi Ji, Chenyi Lei, Han Li, Xiaoshuai Sun,
- Abstract要約: Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
- 参考スコア(独自算出の注目度): 54.15776146365823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) enables users to search for target images using both a reference image and manipulation text, offering substantial advantages over single-modality retrieval systems. However, existing CIR methods suffer from representation space fragmentation: queries and targets comprise heterogeneous modalities and are processed by distinct encoders, forcing models to bridge misaligned representation spaces only through post-hoc alignment, which fundamentally limits retrieval performance. This architectural asymmetry manifests as three distinct, well-separated clusters in the feature space, directly demonstrating how heterogeneous modalities create fundamentally misaligned representation spaces from initialization. In this work, we propose CSMCIR, a unified representation framework that achieves efficient query-target alignment through three synergistic components. First, we introduce a Multi-level Chain-of-Thought (MCoT) prompting strategy that guides Multimodal Large Language Models to generate discriminative, semantically compatible captions for target images, establishing modal symmetry. Building upon this, we design a symmetric dual-tower architecture where both query and target sides utilize the identical shared-parameter Q-Former for cross-modal encoding, ensuring consistent feature representations and further reducing the alignment gap. Finally, this architectural symmetry enables an entropy-based, temporally dynamic Memory Bank strategy that provides high-quality negative samples while maintaining consistency with the evolving model state. Extensive experiments on four benchmark datasets demonstrate that our CSMCIR achieves state-of-the-art performance with superior training efficiency. Comprehensive ablation studies further validate the effectiveness of each proposed component.
- Abstract(参考訳): Composed Image Retrieval (CIR)により、ユーザーは参照画像と操作テキストの両方を用いてターゲット画像の検索が可能となり、単一のモダリティ検索システムに対して大きな利点がある。
しかし、既存のCIR法は表現空間の断片化に悩まされており、クエリとターゲットは不均一なモダリティで構成され、異なるエンコーダによって処理される。
このアーキテクチャの非対称性は、特徴空間において3つの異なる、よく分離されたクラスタとして現れ、不均一なモジュラリティが初期化から根本的に不整合表現空間をいかに生成するかを直接示している。
本研究では,3つの相乗的コンポーネントによる効率的なクエリターゲットアライメントを実現する統一表現フレームワークCSMCIRを提案する。
まず,MCoT(Multi-level Chain-of-Thought)プロンプト戦略を導入し,マルチモーダル大言語モデルを用いて,ターゲット画像に対する識別的,意味的に互換性のあるキャプションを生成し,モダル対称性を確立する。
これに基づいて、問合せ側と目的側の両方が同一の共有パラメータQ-Formerを相互符号化に利用し、一貫した特徴表現を確実にし、アライメントギャップをさらに小さくする対称二重トウワーアーキテクチャを設計する。
最後に、このアーキテクチャ対称性は、進化するモデル状態との整合性を維持しながら高品質な負のサンプルを提供するエントロピーベースの時間動的メモリバンク戦略を可能にする。
4つのベンチマークデータセットに対する大規模な実験により、CSMCIRは、訓練効率が良く、最先端のパフォーマンスを達成できることを示した。
包括的アブレーション研究は、提案する各成分の有効性をさらに検証する。
関連論文リスト
- A Simple and Effective Framework for Symmetric Consistent Indexing in Large-Scale Dense Retrieval [11.72564658353791]
大規模情報検索システムでは,高効率・競争精度のため,高密度検索が業界標準となっている。
広く採用されているデュアルトウワー符号化アーキテクチャは、主に表現空間のミスアライメントと検索インデックスの不整合という、固有の課題を導入している。
本稿では2つの相乗的モジュールからなるシンプルで効果的なSCIフレームワークを提案する。
提案手法の有効性は,公開データセットと実世界のeコマースデータセットにまたがる結果によって検証され,理論的に保証される。
論文 参考訳(メタデータ) (2025-12-15T08:11:24Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Instance and Pair-Aware Dynamic Networks for Re-Identification [16.32740680438257]
Re-identification (ReID) は、異なるカメラで同じインスタンスを識別することです。
インスタンスとペアアウェア動的ネットワークという,新しいエンドツーエンドのトレーニング可能な動的畳み込みフレームワークを提案する。
いくつかのデータセットでは、我々のアルゴリズムは最先端の手法よりも優れており、また、我々のアルゴリズムは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-03-09T12:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。