論文の概要: Modality and Task Adaptation for Enhanced Zero-shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2410.23736v2
- Date: Wed, 06 Aug 2025 07:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.589802
- Title: Modality and Task Adaptation for Enhanced Zero-shot Composed Image Retrieval
- Title(参考訳): ゼロショット合成画像検索のためのモダリティとタスク適応
- Authors: Haiwen Li, Fei Su, Zhicheng Zhao,
- Abstract要約: Zero-Shot Composed Image Retrieval (ZS-CIR) はバイモーダル (image+text) クエリを用いてターゲット画像を取得するように設計されている。
本稿では,2つのコンポーネントからなる軽量なポストホックフレームワークを提案する。
実験により,提案するコンポーネントを組み込むことで,インバージョンに基づく手法が大幅な改善を実現することが示された。
- 参考スコア(独自算出の注目度): 20.612534837883892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a challenging vision-language task, Zero-Shot Composed Image Retrieval (ZS-CIR) is designed to retrieve target images using bi-modal (image+text) queries. Typical ZS-CIR methods employ an inversion network to generate pseudo-word tokens that effectively represent the input semantics. However, the inversion-based methods suffer from two inherent issues: First, the task discrepancy exists because inversion training and CIR inference involve different objectives. Second, the modality discrepancy arises from the input feature distribution mismatch between training and inference. To this end, we propose a lightweight post-hoc framework, consisting of two components: (1) A new text-anchored triplet construction pipeline leverages a large language model (LLM) to transform a standard image-text dataset into a triplet dataset, where a textual description serves as the target of each triplet. (2) The MoTa-Adapter, a novel parameter-efficient fine-tuning method, adapts the dual encoder to the CIR task using our constructed triplet data. Specifically, on the text side, multiple sets of learnable task prompts are integrated via a Mixture-of-Experts (MoE) layer to capture task-specific priors and handle different types of modifications. On the image side, MoTa-Adapter modulates the inversion network's input to better match the downstream text encoder. In addition, an entropy-based optimization strategy is proposed to assign greater weight to challenging samples, thus ensuring efficient adaptation. Experiments show that, with the incorporation of our proposed components, inversion-based methods achieve significant improvements, reaching state-of-the-art performance across four widely-used benchmarks. All data and code will be made publicly available.
- Abstract(参考訳): Zero-Shot Composed Image Retrieval (ZS-CIR) は、視覚言語に挑戦するタスクとして、バイモーダル(image+text)クエリを使用してターゲット画像を取得するように設計されている。
典型的なZS-CIR法は、入力セマンティクスを効果的に表現する擬似ワードトークンを生成するために逆ネットワークを用いる。
第一に、逆トレーニングとCIR推論が異なる目的を持つため、タスクの相違が存在する。
第二に、トレーニングと推論の間の入力特徴分布ミスマッチからモダリティの相違が生じる。
この目的のために,(1)新しいテキストアンコール三重項構築パイプラインは,大言語モデル(LLM)を活用して,標準画像テキストデータセットを3重項データセットに変換し,テキスト記述を3重項のターゲットとする,軽量なポストホックフレームワークを提案する。
2) MoTa-Adapterはパラメータ効率の良いファインチューニング手法であり, 構成した三重項データを用いて, デュアルエンコーダをCIRタスクに適応させる。
具体的には、テキスト側では、複数の学習可能なタスクプロンプトがMixture-of-Experts (MoE)レイヤを介して統合され、タスク固有の事前をキャプチャし、異なるタイプの修正を処理する。
画像側では、MoTa-Adapterがインバージョンネットワークの入力を変調して、下流のテキストエンコーダにマッチさせる。
さらに, エントロピーに基づく最適化手法を提案し, 高い重み付けを行い, 効率よく適応できるようにする。
実験により,提案したコンポーネントを組み込むことで,インバージョンベースの手法が大幅な改善を達成し,広く使用されている4つのベンチマークで最先端の性能を達成した。
すべてのデータとコードは公開されます。
関連論文リスト
- MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval [30.33315985826623]
Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。
本稿では,マッピングから構成に至るまでのトレーニングを行うための2段階のフレームワークを提案する。
最初の段階では、視覚的意味注入モジュールを導入して、画像から擬似単語へのトークン学習を強化する。
第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、合成意味論を効果的に抽出する。
論文 参考訳(メタデータ) (2025-04-25T00:18:23Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval [60.20835288280572]
本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。
FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-03-25T02:51:25Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval [37.95145173167645]
Prompt Directional Vector (PDV)は、ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする、シンプルで効果的なトレーニング不要拡張である。
PDVは,(1) 文字プロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み,(3) 合成テキストと画像埋め込みの重み付き融合,という3つの重要な改善を実現している。
論文 参考訳(メタデータ) (2025-02-11T03:20:21Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - An Efficient Post-hoc Framework for Reducing Task Discrepancy of Text Encoders for Composed Image Retrieval [34.065449743428005]
Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な画像検索を可能にする。
従来のZero-Shot (ZS) CIRメソッドは、画像埋め込みをテキストトークン埋め込み空間に投影することで、高価なトレーニング用CIRトリプルの必要性を回避している。
本稿では,プロジェクションベースのCIR手法を補完する効率的なテキストのみのフレームワークであるReduceing Taskrepancy of Texts (RTD)を紹介する。
論文 参考訳(メタデータ) (2024-06-13T14:49:28Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval [29.838375158101027]
CLIP(Contrastive Language-image Pre-training)は,ゼロショット分類能力に優れていた。
本稿では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つの重要なステップからなる新しい推論手法であるX-MoReを提案する。
X-MoReは、追加のトレーニングを必要とせずに、さまざまなタスクセットで堅牢なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-29T13:02:35Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。