論文の概要: From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2504.17990v1
- Date: Fri, 25 Apr 2025 00:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.599652
- Title: From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval
- Title(参考訳): マッピングからコンポジションへ:Zero-shot Composed Image Retrievalのための2段階フレームワーク
- Authors: Yabing Wang, Zhuotao Tian, Qingpei Guo, Zheng Qin, Sanping Zhou, Ming Yang, Le Wang,
- Abstract要約: Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。
本稿では,マッピングから構成に至るまでのトレーニングを行うための2段階のフレームワークを提案する。
最初の段階では、視覚的意味注入モジュールを導入して、画像から擬似単語へのトークン学習を強化する。
第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、合成意味論を効果的に抽出する。
- 参考スコア(独自算出の注目度): 30.33315985826623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) is a challenging multimodal task that retrieves a target image based on a reference image and accompanying modification text. Due to the high cost of annotating CIR triplet datasets, zero-shot (ZS) CIR has gained traction as a promising alternative. Existing studies mainly focus on projection-based methods, which map an image to a single pseudo-word token. However, these methods face three critical challenges: (1) insufficient pseudo-word token representation capacity, (2) discrepancies between training and inference phases, and (3) reliance on large-scale synthetic data. To address these issues, we propose a two-stage framework where the training is accomplished from mapping to composing. In the first stage, we enhance image-to-pseudo-word token learning by introducing a visual semantic injection module and a soft text alignment objective, enabling the token to capture richer and fine-grained image information. In the second stage, we optimize the text encoder using a small amount of synthetic triplet data, enabling it to effectively extract compositional semantics by combining pseudo-word tokens with modification text for accurate target image retrieval. The strong visual-to-pseudo mapping established in the first stage provides a solid foundation for the second stage, making our approach compatible with both high- and low-quality synthetic data, and capable of achieving significant performance gains with only a small amount of synthetic data. Extensive experiments were conducted on three public datasets, achieving superior performance compared to existing approaches.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。
CIRトリプルトデータセットのアノテートコストが高いため、ゼロショット(ZS)CIRは有望な代替品として注目を集めている。
既存の研究では、イメージを単一の擬似語トークンにマッピングするプロジェクションベースの手法を中心に研究されている。
しかし,これらの手法は,(1)擬単語トークン表現能力の不足,(2)訓練と推論の相違,(3)大規模合成データへの依存,の3つの重要な課題に直面している。
これらの問題に対処するため、我々は、マッピングから構成まで、トレーニングが達成される2段階のフレームワークを提案する。
第1段階では、視覚的意味注入モジュールとソフトテキストアライメント目的を導入することにより、画像から擬似単語へのトークン学習を強化し、よりリッチできめ細かな画像情報を取得することができる。
第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、疑似ワードトークンと修正テキストを組み合わせて合成意味を効果的に抽出し、正確なターゲット画像検索を行う。
第1段階で確立された強力なビジュアル・ツー・プシュードマッピングは第2段階のしっかりとした基盤を提供し、我々のアプローチを高品質な合成データと低品質な合成データの両方と互換性を持たせ、少量の合成データだけで大きな性能向上を達成することができる。
3つの公開データセットで大規模な実験を行い、既存のアプローチと比較して優れたパフォーマンスを実現した。
関連論文リスト
- Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval [60.20835288280572]
本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。
FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-03-25T02:51:25Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data [7.879286384561264]
ビジョンランゲージモデル(Vision-Language Model)は、適切な構成的理解を備えたビジョンランゲージモデルである。
合成学習のための 訓練画像の合成には 3つの課題があります。
本稿では,画像特徴注入を高速テキスト・画像生成モデルに統合したロバスト構成学習を支援するための合成摂動法を提案する。
論文 参考訳(メタデータ) (2025-03-03T04:30:39Z) - MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。