論文の概要: Vision-by-Language for Training-Free Compositional Image Retrieval
- arxiv url: http://arxiv.org/abs/2310.09291v1
- Date: Fri, 13 Oct 2023 17:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 11:42:07.444005
- Title: Vision-by-Language for Training-Free Compositional Image Retrieval
- Title(参考訳): トレーニングフリー合成画像検索のための視覚バイ言語
- Authors: Shyamgopal Karthik, Karsten Roth, Massimiliano Mancini, Zeynep Akata
- Abstract要約: 合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
- 参考スコア(独自算出の注目度): 78.60509831598745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an image and a target modification (e.g an image of the Eiffel tower
and the text "without people and at night-time"), Compositional Image Retrieval
(CIR) aims to retrieve the relevant target image in a database. While
supervised approaches rely on annotating triplets that is costly (i.e. query
image, textual modification, and target image), recent research sidesteps this
need by using large-scale vision-language models (VLMs), performing Zero-Shot
CIR (ZS-CIR). However, state-of-the-art approaches in ZS-CIR still require
training task-specific, customized models over large amounts of image-text
pairs. In this work, we propose to tackle CIR in a training-free manner via our
Compositional Image Retrieval through Vision-by-Language (CIReVL), a simple,
yet human-understandable and scalable pipeline that effectively recombines
large-scale VLMs with large language models (LLMs). By captioning the reference
image using a pre-trained generative VLM and asking a LLM to recompose the
caption based on the textual target modification for subsequent retrieval via
e.g. CLIP, we achieve modular language reasoning. In four ZS-CIR benchmarks, we
find competitive, in-part state-of-the-art performance - improving over
supervised methods. Moreover, the modularity of CIReVL offers simple
scalability without re-training, allowing us to both investigate scaling laws
and bottlenecks for ZS-CIR while easily scaling up to in parts more than double
of previously reported results. Finally, we show that CIReVL makes CIR
human-understandable by composing image and text in a modular fashion in the
language domain, thereby making it intervenable, allowing to post-hoc re-align
failure cases. Code will be released upon acceptance.
- Abstract(参考訳): 画像とターゲット修正(例えば、エッフェル塔の画像と「人なしで、夜間に」テキスト)が与えられた場合、コンポジション画像検索 (CIR) はデータベースで関連するターゲット画像を取得することを目的としている。
教師付きアプローチは、高価な注釈付け三重項(クエリ画像、テキスト修正、ターゲット画像など)に依存しているが、最近の研究は、大規模な視覚言語モデル(VLM)を使用し、Zero-Shot CIR(ZS-CIR)を実行することで、このニーズに対処している。
しかし、ZS-CIRの最先端のアプローチでは、大量の画像テキストペアに対してタスク固有の、カスタマイズされたモデルをトレーニングする必要がある。
本研究では,大規模なVLMを大規模言語モデル (LLM) で効果的に再結合する,シンプルで理解しやすい,スケーラブルなパイプラインであるCIReVL (CIReVL) を通じて,我々のコンポジション画像検索を通じて,CIRの学習自由な取り組みを提案する。
事前訓練された生成VLMを用いて参照画像をキャプションし、LLMに対して、CLIPによる検索のためのテキストターゲット修正に基づくキャプションの再構成を求めることにより、モジュール言語推論を実現する。
4つのZS-CIRベンチマークでは、教師付きメソッドよりも優れた、競争力のある最先端のパフォーマンスが得られます。
さらに、CIReVLのモジュラリティは、再トレーニングなしに単純なスケーラビリティを提供し、ZS-CIRのスケーリング法則とボトルネックの両方を調査できると同時に、以前報告した結果の2倍以上のパーツに簡単にスケールアップできる。
最後に、CIReVLは言語領域において、画像とテキストをモジュール形式で構成することで、CIRを人間的に理解しやすくする。
コードは受理時にリリースされる。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed
Image Retrieval [17.70430913227593]
本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
論文 参考訳(メタデータ) (2023-11-13T02:49:57Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。