論文の概要: Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy
- arxiv url: http://arxiv.org/abs/2411.16752v2
- Date: Mon, 02 Dec 2024 04:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:32.205490
- Title: Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy
- Title(参考訳): 想像と探究:想像したプロキシで合成画像検索を改善する
- Authors: You Li, Fan Ma, Yi Yang,
- Abstract要約: Zero-shot Composed Image Retrieval (ZSCIR)は、クエリイメージと相対的なキャプションにマッチした画像を取得する必要がある。
我々は、クエリ画像とテキスト記述に整合したプロキシ画像を生成する訓練不要な方法であるImagined Proxy for CIR(IP-CIR)を紹介した。
新たに提案したバランス指標はテキストベースとプロキシ検索の類似性を統合し,より正確な画像検索を可能にする。
- 参考スコア(独自算出の注目度): 23.041812897803034
- License:
- Abstract: The Zero-shot Composed Image Retrieval (ZSCIR) requires retrieving images that match the query image and the relative captions. Current methods focus on projecting the query image into the text feature space, subsequently combining them with features of query texts for retrieval. However, retrieving images only with the text features cannot guarantee detailed alignment due to the natural gap between images and text. In this paper, we introduce Imagined Proxy for CIR (IP-CIR), a training-free method that creates a proxy image aligned with the query image and text description, enhancing query representation in the retrieval process. We first leverage the large language model's generalization capability to generate an image layout, and then apply both the query text and image for conditional generation. The robust query features are enhanced by merging the proxy image, query image, and text semantic perturbation. Our newly proposed balancing metric integrates text-based and proxy retrieval similarities, allowing for more accurate retrieval of the target image while incorporating image-side information into the process. Experiments on three public datasets demonstrate that our method significantly improves retrieval performances. We achieve state-of-the-art (SOTA) results on the CIRR dataset with a Recall@K of 70.07 at K=10. Additionally, we achieved an improvement in Recall@10 on the FashionIQ dataset, rising from 45.11 to 45.74, and improved the baseline performance in CIRCO with a mAPK@10 score, increasing from 32.24 to 34.26.
- Abstract(参考訳): Zero-shot Composed Image Retrieval (ZSCIR)は、クエリイメージと相対的なキャプションにマッチした画像を取得する必要がある。
現在の方法は、クエリイメージをテキスト特徴空間に投影することに集中し、その後、検索用のクエリテキストの特徴と組み合わせている。
しかし、画像とテキストの自然なギャップのため、テキストの特徴のみで画像を取得することは、詳細なアライメントを保証することはできない。
本稿では,CIRのためのImagined Proxy for CIR(IP-CIR)について紹介する。
まず、大言語モデルの一般化機能を利用して画像レイアウトを生成し、クエリテキストと画像の両方を条件付き生成に適用する。
堅牢なクエリ機能は、プロキシイメージ、クエリイメージ、テキストセマンティック摂動をマージすることによって強化される。
新たに提案したバランス指標はテキストベースとプロキシ検索の類似性を統合し,画像側情報をプロセスに組み込んで,対象画像のより正確な検索を可能にする。
3つの公開データセットに対する実験により,本手法は検索性能を大幅に向上することが示された。
K=10でRecall@Kが70.07であるCIRRデータセット上で、最先端のSOTA(State-of-the-art)結果を得る。
さらに、FashionIQデータセットのRecall@10の改善、45.11から45.74への上昇、mAPK@10スコアによるCIRCOのベースラインパフォーマンスの向上、32.24から34.26への向上を実現しました。
関連論文リスト
- Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs [44.48400303207482]
ゼロショット合成画像検索(CIR)の目的は、クエリ画像とクエリテキストを用いてターゲット画像を取得することである。
既存の方法は、テキスト変換ネットワークを使用して、クエリイメージを擬似語に変換し、画像とテキストを構成する。
マスク付き画像テキストペアを用いてエンドツーエンドに学習するゼロショットCIR手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:10:30Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Embedding Arithmetic for Text-driven Image Transformation [48.7704684871689]
テキスト表現は、有名なアナロジーのような幾何学的規則性を示す。
最近の研究は、このセマンティックギャップを、画像とテキストをマルチモーダル空間に埋め込むことを目的としている。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
論文 参考訳(メタデータ) (2021-12-06T16:51:50Z) - Compositional Learning of Image-Text Query for Image Retrieval [3.9348884623092517]
画像検索のための画像とテキストクエリの合成を学習するための自動エンコーダベースモデルComposeAEを提案する。
我々は、深層メトリック学習アプローチを採用し、ソース画像とテキストクエリの合成をターゲット画像に近づけるメトリクスを学習する。
論文 参考訳(メタデータ) (2020-06-19T14:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。