論文の概要: Language-only Efficient Training of Zero-shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2312.01998v1
- Date: Mon, 4 Dec 2023 16:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:39:18.359492
- Title: Language-only Efficient Training of Zero-shot Composed Image Retrieval
- Title(参考訳): ゼロショット合成画像検索における言語のみの学習
- Authors: Geonmo Gu and Sanghyuk Chun and Wonjae Kim and Yoohoon Kang and
Sangdoo Yun
- Abstract要約: 合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
- 参考スコア(独自算出の注目度): 50.35345508026073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed image retrieval (CIR) task takes a composed query of image and text,
aiming to search relative images for both conditions. Conventional CIR
approaches need a training dataset composed of triplets of query image, query
text, and target image, which is very expensive to collect. Several recent
works have worked on the zero-shot (ZS) CIR paradigm to tackle the issue
without using pre-collected triplets. However, the existing ZS-CIR methods show
limited backbone scalability and generalizability due to the lack of diversity
of the input texts during training. We propose a novel CIR framework, only
using language for its training. Our LinCIR (Language-only training for CIR)
can be trained only with text datasets by a novel self-supervision named
self-masking projection (SMP). We project the text latent embedding to the
token embedding space and construct a new text by replacing the keyword tokens
of the original text. Then, we let the new and original texts have the same
latent embedding vector. With this simple strategy, LinCIR is surprisingly
efficient and highly effective; LinCIR with CLIP ViT-G backbone is trained in
48 minutes and shows the best ZS-CIR performances on four different CIR
benchmarks, CIRCO, GeneCIS, FashionIQ, and CIRR, even outperforming supervised
method on FashionIQ. Code is available at https://github.com/navervision/lincir
- Abstract(参考訳): 合成画像検索(CIR)タスクは、画像とテキストの合成クエリーを取り、両方の条件で相対的な画像を検索する。
従来のcirアプローチでは、クエリイメージ、クエリテキスト、ターゲットイメージの三重項からなるトレーニングデータセットが必要です。
いくつかの最近の研究は、ゼロショット(ZS)のCIRパラダイムを使って、事前にコンパイルされた三つ子を使わずにこの問題に対処している。
しかし、既存のZS-CIR法では、トレーニング中に入力テキストの多様性が欠如しているため、バックボーンのスケーラビリティと一般化性が制限されている。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
我々はトークン埋め込み空間に遅延埋め込みしたテキストを投影し、元のテキストのキーワードトークンを置き換えることで新しいテキストを構築する。
次に、新しいテキストとオリジナルのテキストが同じ潜在埋め込みベクトルを持つようにします。
この単純な戦略ではLinCIRは驚くほど効率的かつ効果的で、CLIP ViT-Gバックボーンを使用したLinCIRは48分でトレーニングされ、CIRCO、GeneCIS、FashionIQ、CIRRの4つのCIRベンチマークで最高のZS-CIRパフォーマンスを示し、FashionIQの教師ありメソッドよりも優れています。
コードはhttps://github.com/navervision/lincirで入手できる。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval with Local Concept
Reranking [38.564888571096866]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
本稿では,TFCIR(Training-free zero-shot Composed Image Retrieval)法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed
Image Retrieval [17.70430913227593]
本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
論文 参考訳(メタデータ) (2023-11-13T02:49:57Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。