論文の概要: A Little More Like This: Text-to-Image Retrieval with Vision-Language Models Using Relevance Feedback
- arxiv url: http://arxiv.org/abs/2511.17255v1
- Date: Fri, 21 Nov 2025 14:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.051728
- Title: A Little More Like This: Text-to-Image Retrieval with Vision-Language Models Using Relevance Feedback
- Title(参考訳): 関連フィードバックを用いた視覚言語モデルによるテキストから画像への検索
- Authors: Bulat Khaertdinov, Mirela Popa, Nava Tintarev,
- Abstract要約: 大規模視覚言語モデル(VLM)は、自然言語クエリを用いた直感的な視覚検索を可能にする。
本稿では,従来のテキスト検索にインスパイアされたメカニズムを提案する。
VLMに基づく検索のための4つのフィードバック戦略を導入・評価する。
- 参考スコア(独自算出の注目度): 3.138794012564808
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision-language models (VLMs) enable intuitive visual search using natural language queries. However, improving their performance often requires fine-tuning and scaling to larger model variants. In this work, we propose a mechanism inspired by traditional text-based search to improve retrieval performance at inference time: relevance feedback. While relevance feedback can serve as an alternative to fine-tuning, its model-agnostic design also enables use with fine-tuned VLMs. Specifically, we introduce and evaluate four feedback strategies for VLM-based retrieval. First, we revise classical pseudo-relevance feedback (PRF), which refines query embeddings based on top-ranked results. To address its limitations, we propose generative relevance feedback (GRF), which uses synthetic captions for query refinement. Furthermore, we introduce an attentive feedback summarizer (AFS), a custom transformer-based model that integrates multimodal fine-grained features from relevant items. Finally, we simulate explicit feedback using ground-truth captions as an upper-bound baseline. Experiments on Flickr30k and COCO with the VLM backbones show that GRF, AFS, and explicit feedback improve retrieval performance by 3-5% in MRR@5 for smaller VLMs, and 1-3% for larger ones, compared to retrieval with no feedback. Moreover, AFS, similarly to explicit feedback, mitigates query drift and is more robust than GRF in iterative, multi-turn retrieval settings. Our findings demonstrate that relevance feedback can consistently enhance retrieval across VLMs and open up opportunities for interactive and adaptive visual search.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、自然言語クエリを用いた直感的な視覚検索を可能にする。
しかしながら、パフォーマンスを改善するには、しばしば、より大規模なモデル変種への微調整とスケーリングが必要となる。
本研究では,従来のテキスト検索にインスパイアされたメカニズムを提案する。
関連性フィードバックは微調整の代替として機能するが、モデルに依存しない設計では微調整VLMの使用も可能である。
具体的には、VLMに基づく検索のための4つのフィードバック戦略を紹介し、評価する。
まず、古典的擬似関連フィードバック(PRF)を改訂し、上位結果に基づいてクエリの埋め込みを洗練する。
その限界に対処するため,クエリ改善のための合成キャプションを用いた生成関連フィードバック(GRF)を提案する。
さらに、関連する項目から多モードのきめ細かい特徴を統合するカスタムトランスフォーマーベースモデルである注意フィードバック要約器(AFS)を導入する。
最後に,地上の接頭辞を上行ベースラインとして用いることで,明示的なフィードバックをシミュレートする。
VLMバックボーンを用いたFlickr30kとCOCOの実験では、GRF、AFS、明示的なフィードバックにより、より小さなVLMではMRR@5で3~5%、大きなものは1~3%、フィードバックのない検索では1~3%の検索性能が向上した。
さらに、AFSは明示的なフィードバックと同様、クエリドリフトを緩和し、反復的なマルチターン検索設定ではGRFよりも堅牢である。
以上の結果から,関連性フィードバックはVLM間の検索を継続的に強化し,対話的かつ適応的なビジュアルサーチの機会を開放できることが示唆された。
関連論文リスト
- Generalized Pseudo-Relevance Feedback [29.669164314207947]
textit Generalized Pseudo Relevance Feedback (GPRF)
GPRFは、検索した文書に基づいて、モデルフリーで自然言語の書き直しを行う。
複数のベンチマークとレトリバーによる実験は、GPRFが強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-29T13:08:35Z) - Pseudo Relevance Feedback is Enough to Close the Gap Between Small and Large Dense Retrieval Models [29.934928091542375]
大規模言語モデル (LLM) のバックボーンに高密度レトリバーを拡張させることは, 検索効率を向上させる主要な戦略である。
本稿では,機能ベースの擬似関連フィードバック(PRF)フレームワークであるPromptPRFを紹介する。
論文 参考訳(メタデータ) (2025-03-19T04:30:20Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文 参考訳(メタデータ) (2023-09-23T17:07:54Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。