論文の概要: MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
- arxiv url: http://arxiv.org/abs/2409.12959v1
- Date: Thu, 19 Sep 2024 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.777821
- Title: MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
- Title(参考訳): MMSearch: マルチモーダル検索エンジンとしての大規模モデルの可能性をベンチマークする
- Authors: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。
しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。
まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
- 参考スコア(独自算出の注目度): 91.08394877954322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Large Language Models (LLMs) has paved the way for AI search engines, e.g., SearchGPT, showcasing a new paradigm in human-internet interaction. However, most current AI search engines are limited to text-only settings, neglecting the multimodal user queries and the text-image interleaved nature of website information. Recently, Large Multimodal Models (LMMs) have made impressive strides. Yet, whether they can function as AI search engines remains under-explored, leaving the potential of LMMs in multimodal search an open question. To this end, we first design a delicate pipeline, MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On top of this, we introduce MMSearch, a comprehensive evaluation benchmark to assess the multimodal search performance of LMMs. The curated dataset contains 300 manually collected instances spanning 14 subfields, which involves no overlap with the current LMMs' training data, ensuring the correct answer can only be obtained within searching. By using MMSearch-Engine, the LMMs are evaluated by performing three individual tasks (requery, rerank, and summarization), and one challenging end-to-end task with a complete searching process. We conduct extensive experiments on closed-source and open-source LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best results, which surpasses the commercial product, Perplexity Pro, in the end-to-end task, demonstrating the effectiveness of our proposed pipeline. We further present error analysis to unveil current LMMs still struggle to fully grasp the multimodal search tasks, and conduct ablation study to indicate the potential of scaling test-time computation for AI search engine. We hope MMSearch may provide unique insights to guide the future development of multimodal AI search engine. Project Page: https://mmsearch.github.io
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、AI検索エンジン、例えば検索GPTの道を開いた。
しかし、現在のAI検索エンジンのほとんどはテキストのみの設定に限られており、マルチモーダルなユーザクエリや、Webサイト情報のテキストイメージのインターリーブ性は無視されている。
近年,LMM (Large Multimodal Models) が注目されている。
しかし、AI検索エンジンとして機能するかどうかはまだ解明されていないため、マルチモーダル検索におけるLMMの可能性には疑問が残る。
この目的のために、我々はまず、マルチモーダル検索機能を持つ任意のLMMを強化するために、デリケートなパイプラインMMSearch-Engineを設計する。
そこで本稿では,LMMのマルチモーダル検索性能を評価するための総合評価ベンチマークであるMMSearchを紹介する。
キュレートされたデータセットには、14のサブフィールドにまたがる300の手作業で収集されたインスタンスが含まれており、これは現在のLMMのトレーニングデータと重複しない。
MMSearch-Engineを用いることで、LMMは3つの個別タスク(クエリ、リランク、要約)と、完全な検索プロセスによる1つの挑戦的なエンドツーエンドタスクによって評価される。
クローズドソースおよびオープンソースLMMに関する広範な実験を行う。
すべてのテストモデルの中で,MMSearch-Engine を用いた GPT-4o は,提案したパイプラインの有効性を実証し,商用製品である Perplexity Pro を超える最高の結果を得る。
さらに,現在のLMMがマルチモーダル検索タスクを十分に把握することに苦慮していることを示すための誤り解析を行い,AI検索エンジンにおけるテスト時間計算のスケールアップの可能性を示すアブレーション研究を行う。
MMSearchは、マルチモーダルAI検索エンジンの将来開発をガイドするためのユニークな洞察を提供することを期待している。
Project Page: https://mmsearch.github.io
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - MindSearch: Mimicking Human Minds Elicits Deep AI Searcher [20.729251584466983]
我々は、Web情報検索と統合における人間の心を模倣するMindSearchを紹介した。
このフレームワークは、シンプルだが効果的なLLMベースのマルチエージェントフレームワークによってインスタンス化できる。
MindSearchは、深さと幅の点でレスポンス品質が大幅に改善されている。
論文 参考訳(メタデータ) (2024-07-29T17:12:40Z) - When Search Engine Services meet Large Language Models: Visions and Challenges [53.32948540004658]
本稿では,大規模言語モデルと検索エンジンの統合が,両者の相互に利益をもたらすかどうかを詳細に検討する。
LLM(Search4LLM)の改良と,LLM(LLM4Search)を用いた検索エンジン機能の向上という,2つの主要な領域に注目した。
論文 参考訳(メタデータ) (2024-06-28T03:52:13Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Enhanced Facet Generation with LLM Editing [5.4327243200369555]
情報検索においては,ユーザクエリのファセット識別が重要な課題である。
従来の研究は,検索によって得られた検索文書や関連クエリを活用することで,ファセット予測を強化することができる。
しかし、検索エンジンがモデルの一部として動作する場合、他のアプリケーションに拡張することは困難である。
論文 参考訳(メタデータ) (2024-03-25T00:43:44Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。