論文の概要: Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs
- arxiv url: http://arxiv.org/abs/2406.18836v1
- Date: Thu, 27 Jun 2024 02:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:27:31.139125
- Title: Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs
- Title(参考訳): マスク画像テキストペアを利用した検索対象関係を考慮したゼロショット合成画像検索
- Authors: Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: ゼロショット合成画像検索(CIR)の目的は、クエリ画像とクエリテキストを用いてターゲット画像を取得することである。
既存の方法は、テキスト変換ネットワークを使用して、クエリイメージを擬似語に変換し、画像とテキストを構成する。
マスク付き画像テキストペアを用いてエンドツーエンドに学習するゼロショットCIR手法を提案する。
- 参考スコア(独自算出の注目度): 44.48400303207482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel zero-shot composed image retrieval (CIR) method considering the query-target relationship by masked image-text pairs. The objective of CIR is to retrieve the target image using a query image and a query text. Existing methods use a textual inversion network to convert the query image into a pseudo word to compose the image and text and use a pre-trained visual-language model to realize the retrieval. However, they do not consider the query-target relationship to train the textual inversion network to acquire information for retrieval. In this paper, we propose a novel zero-shot CIR method that is trained end-to-end using masked image-text pairs. By exploiting the abundant image-text pairs that are convenient to obtain with a masking strategy for learning the query-target relationship, it is expected that accurate zero-shot CIR using a retrieval-focused textual inversion network can be realized. Experimental results show the effectiveness of the proposed method.
- Abstract(参考訳): 本稿では,マスク付き画像テキストペアによるクエリターゲット関係を考慮したゼロショット合成画像検索(CIR)手法を提案する。
CIRの目的は、クエリ画像とクエリテキストを使用してターゲット画像を取得することである。
既存の方法は、テキストインバージョンネットワークを使用して、クエリイメージを擬似語に変換し、画像とテキストを構成するとともに、事前訓練されたビジュアル言語モデルを使用して検索を実現する。
しかし、検索のための情報を取得するためにテキスト・インバージョン・ネットワークを訓練するクエリ・ターゲット関係は考慮していない。
本稿では,マスク付き画像テキストペアを用いてエンドツーエンドに学習するゼロショットCIR手法を提案する。
クエリとターゲットの関係を学習するためのマスキング戦略で得られる豊富な画像テキストペアを活用することで、検索中心のテキスト反転ネットワークを用いた正確なゼロショットCIRを実現することができると期待されている。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy [23.041812897803034]
Zero-shot Composed Image Retrieval (ZSCIR)は、クエリイメージと相対的なキャプションにマッチした画像を取得する必要がある。
我々は、クエリ画像とテキスト記述に整合したプロキシ画像を生成する訓練不要な方法であるImagined Proxy for CIR(IP-CIR)を紹介した。
新たに提案したバランス指標はテキストベースとプロキシ検索の類似性を統合し,より正確な画像検索を可能にする。
論文 参考訳(メタデータ) (2024-11-24T05:27:21Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Knowledge-aware Text-Image Retrieval for Remote Sensing Images [6.4527372338977]
クロスモーダルテキストイメージ検索は、しばしばテキストと画像の間の情報非対称性に悩まされる。
外部知識グラフから関連情報をマイニングすることにより,知識を考慮したテキスト画像検索手法を提案する。
提案手法は, 知識認識手法により多様かつ一貫した検索が実現され, 最先端の検索方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:27:27Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - End-to-end Semantic Object Detection with Cross-Modal Alignment [0.0]
提案文のアライメントはコントラスト学習を用いて行われ、テキストクエリとのセマンティックアライメントを反映した各提案のスコアを生成する。
領域提案ネットワーク(RPN)はオブジェクト提案を生成するために使用され、エンドツーエンドのトレーニングプロセスにより、セマンティックイメージ検索の効率的かつ効果的なソリューションが実現される。
論文 参考訳(メタデータ) (2023-02-10T12:06:18Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。