論文の概要: Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval
- arxiv url: http://arxiv.org/abs/2505.15877v1
- Date: Wed, 21 May 2025 17:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.835549
- Title: Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval
- Title(参考訳): 注目点:属性に焦点をあてた画像検索のための確率的埋め込み
- Authors: Siting Li, Xiang Gao, Simon Shaolei Du,
- Abstract要約: 我々は属性中心クエリの処理において,現在のテキスト・トゥ・イメージ(T2I)レトリバーを評価する。
CLIPライクなレトリバーは性能が悪く不均衡であることがわかった。
本稿では,これらのマルチモーダルレトリバーで実現可能な高速な画像埋め込みを提案する。
- 参考スコア(独自算出の注目度): 15.961591012060763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While an image is worth more than a thousand words, only a few provide crucial information for a given task and thus should be focused on. In light of this, ideal text-to-image (T2I) retrievers should prioritize specific visual attributes relevant to queries. To evaluate current retrievers on handling attribute-focused queries, we build COCO-Facet, a COCO-based benchmark with 9,112 queries about diverse attributes of interest. We find that CLIP-like retrievers, which are widely adopted due to their efficiency and zero-shot ability, have poor and imbalanced performance, possibly because their image embeddings focus on global semantics and subjects while leaving out other details. Notably, we reveal that even recent Multimodal Large Language Model (MLLM)-based, stronger retrievers with a larger output dimension struggle with this limitation. Hence, we hypothesize that retrieving with general image embeddings is suboptimal for performing such queries. As a solution, we propose to use promptable image embeddings enabled by these multimodal retrievers, which boost performance by highlighting required attributes. Our pipeline for deriving such embeddings generalizes across query types, image pools, and base retriever architectures. To enhance real-world applicability, we offer two acceleration strategies: Pre-processing promptable embeddings and using linear approximations. We show that the former yields a 15% improvement in Recall@5 when prompts are predefined, while the latter achieves an 8% improvement when prompts are only available during inference.
- Abstract(参考訳): 画像は1000語以上の価値があるが、与えられたタスクに対して重要な情報を提供するのはごくわずかであり、従って焦点を当てるべきである。
これを踏まえて、理想的なテキスト・トゥ・イメージ(T2I)検索者は、クエリに関連する特定の視覚的属性を優先順位付けする必要がある。
属性に着目したクエリ処理における現在のリトリバーを評価するために,COCOベースのベンチマークであるCOCO-Facetを構築した。
その効率性とゼロショット能力から広く採用されているCLIPライクなレトリバーは,画像埋め込みがグローバルなセマンティクスや主題に焦点を絞っているため,性能が不均衡である可能性がある。
特に,近年のMultimodal Large Language Model (MLLM) においても,出力次元が大きいより強力な検索者が,この制限に苦慮していることが明らかとなった。
したがって、一般的な画像埋め込みによる検索は、そのようなクエリの実行に最適である、という仮説を立てる。
そこで本研究では,これらのマルチモーダルレトリバーで実現可能な高速な画像埋め込みを提案する。
このような埋め込みを導出するためのパイプラインは、クエリタイプ、イメージプール、ベースレトリバーアーキテクチャにまたがって一般化されている。
実世界の応用性を高めるために, 事前処理可能な埋め込みと線形近似の2つの高速化戦略を提案する。
我々は、前者はプロンプトが事前に定義されたときにRecall@5が15%改善され、後者は推論時にのみ利用できる場合に8%改善されていることを示す。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering [14.63910474388089]
QAの学習目標が探索段階の最適化に失敗するため, 「検索・回答」パイプラインはカスケードエラーに悩まされることが多い。
本稿では,検索した情報をQAに効果的に導入し,参照するための新しい手法を提案する。
提案手法は,RETVQAの最先端手法よりも3.7%,CLIPよりも14.5%,絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T14:17:09Z) - PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction [21.5792639312506]
本稿では,画像生成性能の点から手動でアノテートするプロンプトの最初のデータセットを紹介する。
我々はこれらの評価をテキスト・ツー・イメージ検索に拡張し、検索性能を表す手動アノテーションを収集する。
そこで我々は,PQPP (Properced and query performance prediction) とPQPP (Properced and query performance prediction) の2つのタスク間で10万以上のクエリからなる最初の共同ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-07T08:46:19Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Improving One-stage Visual Grounding by Recursive Sub-query Construction [102.47477888060801]
長いクエリと複雑なクエリのグラウンド化における現在の制限に対処することで、ワンステージの視覚的グラウンド化を改善する。
我々は,新しい1段階法により,最先端の1段階ベースラインに対して5.0%,4.5%,7.5%,12.8%の絶対改善が得られたことを示す。
論文 参考訳(メタデータ) (2020-08-03T17:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。