論文の概要: An Efficient Post-hoc Framework for Reducing Task Discrepancy of Text Encoders for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2406.09188v2
- Date: Tue, 18 Mar 2025 04:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:12:42.557603
- Title: An Efficient Post-hoc Framework for Reducing Task Discrepancy of Text Encoders for Composed Image Retrieval
- Title(参考訳): 合成画像検索のためのテキストエンコーダのタスク差分低減のための効率的なポストホックフレームワーク
- Authors: Jaeseok Byun, Seokhyeon Jeong, Wonjae Kim, Sanghyuk Chun, Taesup Moon,
- Abstract要約: Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な画像検索を可能にする。
従来のZero-Shot (ZS) CIRメソッドは、画像埋め込みをテキストトークン埋め込み空間に投影することで、高価なトレーニング用CIRトリプルの必要性を回避している。
本稿では,プロジェクションベースのCIR手法を補完する効率的なテキストのみのフレームワークであるReduceing Taskrepancy of Texts (RTD)を紹介する。
- 参考スコア(独自算出の注目度): 34.065449743428005
- License:
- Abstract: Composed Image Retrieval (CIR) aims to retrieve a target image based on a reference image and conditioning text, enabling controllable image searches. The mainstream Zero-Shot (ZS) CIR methods bypass the need for expensive training CIR triplets by projecting image embeddings into the text token embedding space, forming a composed query for retrieval. However, we highlight an inherent limitation in these projection-based CIR: a task discrepancy of text encoders between the original pre-training task of the encoders (text $\leftrightarrow$ image) and the target CIR task (image + text $\leftrightarrow$ image), which potentially negatively impacts CIR performance. To reduce such a discrepancy, a naive solution would be to train both image and text encoders with CIR triplets in a supervised manner. Instead, we introduce Reducing Task Discrepancy of Text Encoders (RTD), an efficient text-only post-hoc framework that complements projection-based CIR methods. We devise a novel target-anchored text contrastive learning designed to enhance the capability of the text encoder for CIR. We also propose two key enhancements: (1) a hard negative-based refined batch sampling strategy and (2) a refined concatenation scheme to further mitigate training-inference discrepancy. Integrating RTD into state-of-the-art projection-based methods achieves performance comparable to, or even surpassing, resource-intensive state-of-the-art synthetic CIR triplet-based approaches only with 23 minutes of additional training on 4 A100 GPUs (up to $100\times$ faster in training). Our code will be available upon acceptance.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な画像検索を可能にする。
主流のZero-Shot (ZS) CIRメソッドは、画像埋め込みをテキストトークン埋め込み空間に投影し、検索のための合成クエリを形成することで、高価なトレーニング用CIRトレーレットの必要性を回避している。
しかし、これらのプロジェクションベースのCIRには固有の制限がある: エンコーダの本来の事前訓練タスク(text $\leftrightarrow$ image)とターゲットのCIRタスク(image + text $\leftrightarrow$ image)との間のテキストエンコーダのタスク差は、CIRのパフォーマンスに悪影響を及ぼす可能性がある。
このような不一致を減らすために、イメージエンコーダとテキストエンコーダの両方をCIRトリプレットで教師付きでトレーニングする、簡単な解決策がある。
代わりに、プロジェクションベースのCIRメソッドを補完する効率的なテキストのみのポストホックフレームワークであるテキストエンコーダ(RTD)のタスク離散化を導入する。
我々は、CIR用テキストエンコーダの能力を高めるために、新しいターゲットアンコールテキストコントラスト学習を考案した。
また,(1)硬質負型精細バッチサンプリング戦略,(2)訓練と推論の相違を緩和する精細結合方式を提案する。
RTDを最先端のプロジェクションベース手法に統合することで、リソース集約型のCIR三重項ベースのアプローチに匹敵するパフォーマンスを達成できる。
私たちのコードは受理後利用可能になります。
関連論文リスト
- PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval [37.95145173167645]
Prompt Directional Vector (PDV)は、ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする、シンプルで効果的なトレーニング不要拡張である。
PDVは,(1) 文字プロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み,(3) 合成テキストと画像埋め込みの重み付き融合,という3つの重要な改善を実現している。
論文 参考訳(メタデータ) (2025-02-11T03:20:21Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Expediting Contrastive Language-Image Pretraining via Self-distilled
Encoders [10.649402840032138]
ECLIPSEは、オンライン画像エンコーダとモーメント画像エンコーダの間で共有テキストエンコーダを利用する独自の蒸留アーキテクチャを備えている。
ECLIPSEは、統合されたテキスト埋め込み空間に基づいて、オンライン画像エンコーダを高速化することにより、運動量画像エンコーダの計算コストを補う。
論文 参考訳(メタデータ) (2023-12-19T23:11:06Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Language-only Efficient Training of Zero-shot Composed Image Retrieval [46.93446891158521]
合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
論文 参考訳(メタデータ) (2023-12-04T16:22:06Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。