論文の概要: EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18594v1
- Date: Sat, 24 May 2025 08:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.52965
- Title: EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models
- Title(参考訳): EvdCLIP:大規模言語モデルからのエンティティビジュアル記述による視覚言語検索の改善
- Authors: GuangHao Meng, Sunan He, Jinpeng Wang, Tao Dai, Letian Zhang, Jieming Zhu, Qing Li, Gang Wang, Rui Zhang, Yong Jiang,
- Abstract要約: 視覚言語検索は、対応する画像(またはテキスト)を検索するクエリとしてテキスト(または画像)を使用する。
本稿では,エンティティの視覚的知識を活用してクエリを充実させるために,Entity Visual Description enhanced CLIP (EvdCLIP)を提案する。
また,視覚言語検索タスクのための新しいEVD対応リライター(EaRW)を開発した。
- 参考スコア(独自算出の注目度): 48.659144065615166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language retrieval (VLR) has attracted significant attention in both academia and industry, which involves using text (or images) as queries to retrieve corresponding images (or text). However, existing methods often neglect the rich visual semantics knowledge of entities, thus leading to incorrect retrieval results. To address this problem, we propose the Entity Visual Description enhanced CLIP (EvdCLIP), designed to leverage the visual knowledge of entities to enrich queries. Specifically, since humans recognize entities through visual cues, we employ a large language model (LLM) to generate Entity Visual Descriptions (EVDs) as alignment cues to complement textual data. These EVDs are then integrated into raw queries to create visually-rich, EVD-enhanced queries. Furthermore, recognizing that EVD-enhanced queries may introduce noise or low-quality expansions, we develop a novel, trainable EVD-aware Rewriter (EaRW) for vision-language retrieval tasks. EaRW utilizes EVD knowledge and the generative capabilities of the language model to effectively rewrite queries. With our specialized training strategy, EaRW can generate high-quality and low-noise EVD-enhanced queries. Extensive quantitative and qualitative experiments on image-text retrieval benchmarks validate the superiority of EvdCLIP on vision-language retrieval tasks.
- Abstract(参考訳): 視覚言語検索(VLR)は、テキスト(または画像)をクエリとして使用して対応する画像(またはテキスト)を検索する学術と産業の両方で注目されている。
しかし、既存の手法は、エンティティの豊富な視覚的セマンティクス知識を無視することが多く、誤った検索結果をもたらす。
この問題に対処するために,エンティティの視覚的知識を活用してクエリを豊かにするEntity Visual Description enhanced CLIP (EvdCLIP)を提案する。
具体的には、人間が視覚的手がかりを通してエンティティを認識するため、大言語モデル(LLM)を用いて、テキストデータを補完するアライメントキューとしてエンティティビジュアル記述(EVD)を生成する。
これらのEVDは生のクエリに統合され、視覚的にリッチなEVD強化クエリを生成する。
さらに,EVD強化クエリがノイズや低品質の拡張をもたらす可能性があることを認識し,視覚言語検索タスクのための新しいトレーニング可能なEVD対応リライタ(EaRW)を開発した。
EaRWは、EVDの知識と言語モデルの生成機能を利用して、クエリを効果的に書き換える。
専門的なトレーニング戦略により、EaRWは高品質で低ノイズなEVD強化クエリを生成することができる。
画像テキスト検索ベンチマークにおける大規模定量的および定性的な実験は、視覚言語検索タスクにおけるEvdCLIPの優位性を検証する。
関連論文リスト
- Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes [0.0]
Vision-Aware Retrieval-Augmented Prompting (VRAP)は、大規模ビジョンランゲージモデルを強化するジェネレーティブアプローチである。
VRAPは、微細な推論とマルチモーダル理解において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-16T02:52:19Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。
より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。
提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文 参考訳(メタデータ) (2023-10-03T11:11:55Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。