論文の概要: Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders
- arxiv url: http://arxiv.org/abs/2509.00177v1
- Date: Fri, 29 Aug 2025 18:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.111621
- Title: Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders
- Title(参考訳): カテゴリーレベルのテキスト・画像検索の改善:拡散モデルと視覚エンコーダによる領域ギャップのブリッジ
- Authors: Faizan Farooq Khan, Vladan Stojnić, Zakaria Laskar, Mohamed Elhoseiny, Giorgos Tolias,
- Abstract要約: 本研究は,セマンティックカテゴリを指定または記述したクエリのテキスト・ツー・イメージ検索について検討する。
生成拡散モデルを用いて,テキストクエリを視覚的なクエリに変換する。
そして、視覚モデルと画像間の類似性を推定する。
- 参考スコア(独自算出の注目度): 41.08205377881149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores text-to-image retrieval for queries that specify or describe a semantic category. While vision-and-language models (VLMs) like CLIP offer a straightforward open-vocabulary solution, they map text and images to distant regions in the representation space, limiting retrieval performance. To bridge this modality gap, we propose a two-step approach. First, we transform the text query into a visual query using a generative diffusion model. Then, we estimate image-to-image similarity with a vision model. Additionally, we introduce an aggregation network that combines multiple generated images into a single vector representation and fuses similarity scores across both query modalities. Our approach leverages advancements in vision encoders, VLMs, and text-to-image generation models. Extensive evaluations show that it consistently outperforms retrieval methods relying solely on text queries. Source code is available at: https://github.com/faixan-khan/cletir
- Abstract(参考訳): 本研究は,セマンティックカテゴリを指定または記述したクエリのテキスト・ツー・イメージ検索について検討する。
CLIPのようなヴィジュアル・アンド・ランゲージ・モデル(VLM)は、単純なオープン語彙のソリューションを提供するが、テキストと画像は表現空間内の遠くの領域にマッピングされ、検索性能が制限される。
このモダリティギャップを埋めるために、我々は2段階のアプローチを提案する。
まず、生成拡散モデルを用いて、テキストクエリを視覚的なクエリに変換する。
そして、視覚モデルと画像間の類似性を推定する。
さらに,複数の生成した画像を1つのベクトル表現に組み合わせた集約ネットワークを導入し,問合せ条件の類似点を融合する。
我々のアプローチは、視覚エンコーダ、VLM、テキスト・ツー・イメージ生成モデルの進歩を活用している。
広範囲な評価の結果,テキストクエリのみに依存する検索手法は一貫して優れていた。
ソースコードは、https://github.com/faixan-khan/cletirで入手できる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。