論文の概要: Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed
Image Retrieval
- arxiv url: http://arxiv.org/abs/2311.07622v2
- Date: Wed, 15 Nov 2023 04:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 11:20:30.022994
- Title: Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed
Image Retrieval
- Title(参考訳): 推論のように事前トレーニングする: マスクチューニングによりゼロショット合成画像検索が改善
- Authors: Junyang Chen, Hanjiang Lai
- Abstract要約: 本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
- 参考スコア(独自算出の注目度): 17.70430913227593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot composed image retrieval (ZS-CIR), which aims to retrieve a target
image based on textual modifications to a reference image without triplet
labeling, has gained more and more attention. Current ZS-CIR research mainly
relies on two unlabeled pre-trained models: the vision-language model, e.g.,
CLIP, and the Pic2Word/textual inversion model. However, the pre-trained models
and CIR tasks have substantial discrepancies, where the pre-trained models
learn the similarities between vision and language but CIR aims to learn the
modifications of the image guided by text. In this paper, we introduce a novel
unlabeled and pre-trained masked tuning approach to reduce the gap between the
pre-trained model and the downstream CIR task. We first reformulate the
pre-trained vision-language contrastive learning as the CIR task, where we
randomly mask input image patches to generate $\langle$masked image, text,
image$\rangle$ triple from an image-text pair. Then, we propose a masked
tuning, which uses the text and the masked image to learn the modifications of
the original image. With such a simple design, it can learn to capture
fine-grained text-guided modifications. Extensive experimental results
demonstrate the significant superiority of our approach over the baseline
models on three ZS-CIR datasets, including FashionIQ, CIRR, and CIRCO.
- Abstract(参考訳): ゼロショット合成画像検索(zs-cir)は,トリプレットラベリングを必要とせず,参照画像のテキスト修正に基づく対象画像の検索を目的としたものである。
現在のZS-CIRの研究は主に、視覚言語モデル(例えばCLIP)とPic2Word/textual inversionモデル(英語版)である。
しかし、事前学習されたモデルとcirタスクは、視覚と言語の間の類似性を学ぶが、cirはテキストで導かれた画像の修正を学ぶことを目的としている。
本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
そこで入力画像パッチをランダムにマスクして,画像-テキストペアから$\langle$masked image, text, image$\rangle$ tripleを生成する。
そこで本研究では,テキストとマスキング画像を用いて原画像の修正を学習するマスキングチューニングを提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
FashionIQ, CIRR, CIRCOを含む3つのZS-CIRデータセットのベースラインモデルに対するアプローチの大幅な優位性を示した。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept
Reranking [38.564888571096866]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
本稿では,TFCIR(Training-free zero-shot Composed Image Retrieval)法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Language-only Efficient Training of Zero-shot Composed Image Retrieval [50.35345508026073]
合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
論文 参考訳(メタデータ) (2023-12-04T16:22:06Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.78877201319811]
『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。
LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
論文 参考訳(メタデータ) (2021-11-15T18:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。