論文の概要: Visualized Text-to-Image Retrieval
- arxiv url: http://arxiv.org/abs/2505.20291v1
- Date: Mon, 26 May 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.147195
- Title: Visualized Text-to-Image Retrieval
- Title(参考訳): 視覚的テキスト・画像検索
- Authors: Di Wu, Yixin Wan, Kai-Wei Chang,
- Abstract要約: テキスト・トゥ・イメージ(T2I)検索のための新しいパラダイムである Visualize-then-Retrieve (VisRet) を提案する。
VisRetはまず、T2I生成を介して画像モダリティにテキストクエリを投影する。
その後、画像モダリティ内で検索を行い、微妙な視覚空間的特徴を認識するために、クロスモーダルレトリバーの弱点を回避します。
- 参考スコア(独自算出の注目度): 55.178938325324864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Visualize-then-Retrieve (VisRet), a new paradigm for Text-to-Image (T2I) retrieval that mitigates the limitations of cross-modal similarity alignment of existing multi-modal embeddings. VisRet first projects textual queries into the image modality via T2I generation. Then, it performs retrieval within the image modality to bypass the weaknesses of cross-modal retrievers in recognizing subtle visual-spatial features. Experiments on three knowledge-intensive T2I retrieval benchmarks, including a newly introduced multi-entity benchmark, demonstrate that VisRet consistently improves T2I retrieval by 24.5% to 32.7% NDCG@10 across different embedding models. VisRet also significantly benefits downstream visual question answering accuracy when used in retrieval-augmented generation pipelines. The method is plug-and-play and compatible with off-the-shelf retrievers, making it an effective module for knowledge-intensive multi-modal systems. Our code and the new benchmark are publicly available at https://github.com/xiaowu0162/Visualize-then-Retrieve.
- Abstract(参考訳): 既存のマルチモーダル埋め込みの相互類似性アライメントの制限を緩和するテキスト・トゥ・イメージ(T2I)検索の新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetはまず、T2I生成を介して画像モダリティにテキストクエリを投影する。
そして、画像モダリティ内で検索を行い、微妙な視覚空間的特徴を認識するために、クロスモーダルレトリバーの弱点を回避します。
新たなマルチエンタリティベンチマークを含む3つの知識集約型T2I検索ベンチマークの実験では、VisRetは異なる埋め込みモデルに対して24.5%から32.7%のNDCG@10でT2I検索を継続的に改善している。
VisRetはまた、検索強化生成パイプラインで使用する場合、下流の視覚的質問応答の精度を著しく向上させる。
この方法はプラグアンドプレイであり、市販のレトリバーと互換性があり、知識集約型マルチモーダルシステムに有効なモジュールである。
私たちのコードと新しいベンチマークはhttps://github.com/xiaowu0162/Visualize-then-Retrieve.comで公開されています。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal
Text-Image Retrieval in Remote Sensing [1.6758573326215689]
本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。
私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
論文 参考訳(メタデータ) (2022-01-20T12:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。