論文の概要: MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2411.02571v1
- Date: Mon, 04 Nov 2024 20:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:02:20.722942
- Title: MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs
- Title(参考訳): MM埋め込み:マルチモーダルLLMを用いたユニバーサルマルチモーダル検索
- Authors: Sheng-Chieh Lin, Chankyu Lee, Mohammad Shoeybi, Jimmy Lin, Bryan Catanzaro, Wei Ping,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
- 参考スコア(独自算出の注目度): 78.5013630951288
- License:
- Abstract: State-of-the-art retrieval models typically address a straightforward search scenario, where retrieval tasks are fixed (e.g., finding a passage to answer a specific question) and only a single modality is supported for both queries and retrieved results. This paper introduces techniques for advancing information retrieval with multimodal large language models (MLLMs), enabling a broader search scenario, termed universal multimodal retrieval, where multiple modalities and diverse retrieval tasks are accommodated. To this end, we first study fine-tuning an MLLM as a bi-encoder retriever on 10 datasets with 16 retrieval tasks. Our empirical results show that the fine-tuned MLLM retriever is capable of understanding challenging queries, composed of both text and image, but underperforms a smaller CLIP retriever in cross-modal retrieval tasks due to modality bias from MLLMs. To address the issue, we propose modality-aware hard negative mining to mitigate the modality bias exhibited by MLLM retrievers. Second, we propose to continually fine-tune the universal multimodal retriever to enhance its text retrieval capability while maintaining multimodal retrieval capability. As a result, our model, MM-Embed, achieves state-of-the-art performance on the multimodal retrieval benchmark M-BEIR, which spans multiple domains and tasks, while also surpassing the state-of-the-art text retrieval model, NV-Embed-v1, on MTEB retrieval benchmark. Finally, we explore to prompt the off-the-shelf MLLMs as the zero-shot rerankers to refine the ranking of the candidates from the multimodal retriever. We find that through prompt-and-reranking, MLLMs can further improve multimodal retrieval when the user queries (e.g., text-image composed queries) are more complex and challenging to understand. These findings also pave the way to advance universal multimodal retrieval in the future.
- Abstract(参考訳): 最先端の検索モデルは、検索タスクが固定された(例えば、特定の質問に答えるための経路を見つける)単純な検索シナリオに対処し、クエリと検索結果の両方に対して単一のモダリティのみがサポートされている。
本稿では,マルチモーダル大言語モデル (MLLM) を用いた情報検索手法を提案する。
この目的のために,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
実験の結果,MLLM検索はテキストと画像の両方からなる難解な問合せを解くことができるが,MLLMのモダリティバイアスによるクロスモーダル検索タスクでは,より小さなCLIP検索が不十分であることがわかった。
この問題に対処するために,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
第2に,マルチモーダル検索能力を維持しつつ,テキスト検索能力を向上させるために,ユニバーサルマルチモーダル検索機能を継続的に微調整することを提案する。
その結果、MM-Embedはマルチモーダル検索ベンチマークM-BEIRにおいて、複数のドメインやタスクにまたがる最先端のテキスト検索モデルであるNV-Embed-v1をMTEB検索ベンチマークで上回っている。
最後に,既製のMLLMをゼロショットリランカとして,マルチモーダルレトリバーから候補のランク付けを行う。
ユーザクエリ(例えば、テキストイメージ合成クエリ)がより複雑で理解が難しい場合、MLLMはプロンプトとリグレードによって、マルチモーダル検索をさらに改善できることがわかった。
これらの発見は、将来、普遍的なマルチモーダル検索を進める道を開いた。
関連論文リスト
- Enhancing Long Context Performance in LLMs Through Inner Loop Query Mechanism [2.919891871101241]
変換器は入力サイズと計算複雑性の2次スケーリングを持つ。
Retrieval-augmented Generation (RAG)は、検索システムを使用することで、より長いコンテキストを処理できる。
インナーループメモリ拡張ツリー検索(ILM-TR)という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-11T19:49:05Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization [9.739781953744606]
Open-Domain Multi-Document Summarization (ODMDS)は、ユーザクエリに応答して巨大なドキュメントコレクションから要約を生成するタスクである。
ODMDSタスクのオープンエンドクエリでは、従来の検索列サマリズアプローチは不足している。
ODMDSの軽量パス検索手法であるLightPALを提案する。
論文 参考訳(メタデータ) (2024-06-18T10:57:27Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - UniIR: Training and Benchmarking Universal Multimodal Information
Retrievers [76.06249845401975]
命令誘導型マルチモーダルレトリバーであるUniIRを導入する。
UniIRは、10の多様なマルチモーダル-IRデータセットで共同で訓練された単一の検索システムであり、様々な検索タスクを実行するためにユーザー命令を解釈する。
我々は,汎用マルチモーダル情報検索の評価を標準化するために,総合的な結果を持つマルチモーダル検索ベンチマークであるM-BEIRを構築した。
論文 参考訳(メタデータ) (2023-11-28T18:55:52Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。