論文の概要: Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2512.01636v1
- Date: Mon, 01 Dec 2025 13:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.857044
- Title: Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval
- Title(参考訳): ゼロショット合成画像検索のための共同視覚言語空間における生成編集
- Authors: Xin Wang, Haipeng Zhang, Mang Li, Zhaohui Xia, Yueguo Chen, Yu Zhang, Chunyu Wei,
- Abstract要約: Composed Image Retrieval (CIR)は、参照画像とテキスト修正を組み合わせることで、きめ細かいビジュアル検索を可能にする。
マルチモーダルアライメントのために設計された高効率・データ効率の新たな生成編集フレームワークであるFusion-Diffを提案する。
- 参考スコア(独自算出の注目度): 11.724675700368316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) enables fine-grained visual search by combining a reference image with a textual modification. While supervised CIR methods achieve high accuracy, their reliance on costly triplet annotations motivates zero-shot solutions. The core challenge in zero-shot CIR (ZS-CIR) stems from a fundamental dilemma: existing text-centric or diffusion-based approaches struggle to effectively bridge the vision-language modality gap. To address this, we propose Fusion-Diff, a novel generative editing framework with high effectiveness and data efficiency designed for multimodal alignment. First, it introduces a multimodal fusion feature editing strategy within a joint vision-language (VL) space, substantially narrowing the modality gap. Second, to maximize data efficiency, the framework incorporates a lightweight Control-Adapter, enabling state-of-the-art performance through fine-tuning on only a limited-scale synthetic dataset of 200K samples. Extensive experiments on standard CIR benchmarks (CIRR, FashionIQ, and CIRCO) demonstrate that Fusion-Diff significantly outperforms prior zero-shot approaches. We further enhance the interpretability of our model by visualizing the fused multimodal representations.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、参照画像とテキスト修正を組み合わせることで、きめ細かいビジュアル検索を可能にする。
教師付きCIR法は高い精度を達成する一方で、コストのかかる三重項アノテーションへの依存はゼロショット解を動機付けている。
ゼロショットCIR (ZS-CIR) の中核的な課題は基本的なジレンマにある。
そこで本研究では,マルチモーダルアライメントのための高効率・データ効率の新たな生成編集フレームワークFusion-Diffを提案する。
まず、共同視覚言語(VL)空間内でのマルチモーダル融合機能編集戦略を導入し、モダリティギャップを大幅に狭める。
第二に、データの効率を最大化するために、このフレームワークは軽量なコントロール・アダプタを導入し、200Kサンプルの限られたスケールの合成データセットのみを微調整することで最先端のパフォーマンスを実現する。
標準CIRベンチマーク(CIRR、FashionIQ、CIRCO)の大規模な実験は、Fusion-Diffが以前のゼロショットアプローチよりも大幅に優れていることを示した。
我々は、融合したマルチモーダル表現を可視化することで、モデルの解釈可能性をさらに強化する。
関連論文リスト
- CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。