論文の概要: Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models
- arxiv url: http://arxiv.org/abs/2404.18746v1
- Date: Mon, 29 Apr 2024 14:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:28:15.825199
- Title: Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models
- Title(参考訳): 大規模言語モデルと視覚言語モデルを用いた問合せ書き換えによる対話型画像検索の実現
- Authors: Hongyi Zhu, Jia-Hong Huang, Stevan Rudinac, Evangelos Kanoulas,
- Abstract要約: 本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 17.171715290673678
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image search stands as a pivotal task in multimedia and computer vision, finding applications across diverse domains, ranging from internet search to medical diagnostics. Conventional image search systems operate by accepting textual or visual queries, retrieving the top-relevant candidate results from the database. However, prevalent methods often rely on single-turn procedures, introducing potential inaccuracies and limited recall. These methods also face the challenges, such as vocabulary mismatch and the semantic gap, constraining their overall effectiveness. To address these issues, we propose an interactive image retrieval system capable of refining queries based on user relevance feedback in a multi-turn setting. This system incorporates a vision language model (VLM) based image captioner to enhance the quality of text-based queries, resulting in more informative queries with each iteration. Moreover, we introduce a large language model (LLM) based denoiser to refine text-based query expansions, mitigating inaccuracies in image descriptions generated by captioning models. To evaluate our system, we curate a new dataset by adapting the MSR-VTT video retrieval dataset to the image retrieval task, offering multiple relevant ground truth images for each query. Through comprehensive experiments, we validate the effectiveness of our proposed system against baseline methods, achieving state-of-the-art performance with a notable 10\% improvement in terms of recall. Our contributions encompass the development of an innovative interactive image retrieval system, the integration of an LLM-based denoiser, the curation of a meticulously designed evaluation dataset, and thorough experimental validation.
- Abstract(参考訳): 画像検索は、マルチメディアとコンピュータビジョンにおいて重要なタスクであり、インターネット検索から医療診断まで、さまざまな領域にまたがるアプリケーションを見つける。
従来の画像検索システムは、テキストまたは視覚的なクエリを受け付け、データベースから最も関連性の高い候補結果を取得する。
しかし、一般的な手法は単一のターンプロシージャに依存し、潜在的な不正確さと限られたリコールを導入する。
これらの手法はまた、語彙ミスマッチや意味的ギャップといった課題に直面し、全体的な効果を制限している。
これらの課題に対処するために,マルチターンでユーザ関連フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは、視覚言語モデル(VLM)に基づく画像キャプタを組み込んで、テキストベースのクエリの品質を向上させる。
さらに,大言語モデル(LLM)に基づくデノイザを導入し,テキストベースのクエリ拡張を洗練し,キャプションモデルによって生成された画像記述における不正確性を緩和する。
提案システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用し,クエリ毎に複数の関連する基底真理画像を提供することにより,新たなデータセットをキュレートする。
総合的な実験を通じて,提案システムの有効性をベースライン法に対して検証し,リコールの点において顕著な10倍の精度で最先端の性能を達成した。
コントリビューションには、革新的なインタラクティブ画像検索システムの開発、LCMベースのデノイザの統合、微妙に設計された評価データセットのキュレーション、徹底的な実験検証が含まれる。
関連論文リスト
- Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。
従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。
また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文 参考訳(メタデータ) (2024-08-29T06:54:03Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。