論文の概要: MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark
- arxiv url: http://arxiv.org/abs/2505.11651v2
- Date: Wed, 21 May 2025 17:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.316698
- Title: MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark
- Title(参考訳): MIRACL-VISION: 大規模・多言語・ビジュアル文書検索ベンチマーク
- Authors: Radek Osmulski, Gabriel de Souza P. Moreira, Ronay Ak, Mengyao Xu, Benedikt Schifferer, Even Oldridge,
- Abstract要約: MIRACL-VISIONは多言語視覚文書評価評価ベンチマークである。
MIRACL-VISIONは18の言語をカバーし、MIRACLデータセットの拡張である。
我々は,多言語機能に対する最先端のVLMベースの埋め込みモデルのギャップを観察する。
- 参考スコア(独自算出の注目度): 1.8448587047759064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document retrieval is an important task for search and Retrieval-Augmented Generation (RAG) applications. Large Language Models (LLMs) have contributed to improving the accuracy of text-based document retrieval. However, documents with complex layout and visual elements like tables, charts and infographics are not perfectly represented in textual format. Recently, image-based document retrieval pipelines have become popular, which use visual large language models (VLMs) to retrieve relevant page images given a query. Current evaluation benchmarks on visual document retrieval are limited, as they primarily focus only English language, rely on synthetically generated questions and offer a small corpus size. Therefore, we introduce MIRACL-VISION, a multilingual visual document retrieval evaluation benchmark. MIRACL-VISION covers 18 languages, and is an extension of the MIRACL dataset, a popular benchmark to evaluate text-based multilingual retrieval pipelines. MIRACL was built using a human-intensive annotation process to generate high-quality questions. In order to reduce MIRACL-VISION corpus size to make evaluation more compute friendly while keeping the datasets challenging, we have designed a method for eliminating the "easy" negatives from the corpus. We conducted extensive experiments comparing MIRACL-VISION with other benchmarks, using popular public text and image models. We observe a gap in state-of-the-art VLM-based embedding models on multilingual capabilities, with up to 59.7% lower retrieval accuracy than a text-based retrieval models. Even for the English language, the visual models retrieval accuracy is 12.1% lower compared to text-based models. MIRACL-VISION is a challenging, representative, multilingual evaluation benchmark for visual retrieval pipelines and will help the community build robust models for document retrieval.
- Abstract(参考訳): 文書検索は検索・検索・検索・拡張生成(RAG)アプリケーションにとって重要な課題である。
大規模言語モデル(LLM)は、テキストベースの文書検索の精度向上に寄与している。
しかし、複雑なレイアウトとテーブル、チャート、インフォグラフィックのようなビジュアル要素を持つ文書は、完全にテキスト形式で表現されていない。
近年,画像に基づく文書検索パイプラインが普及し,視覚的大言語モデル (VLM) を用いて検索対象のページイメージを検索している。
ビジュアル文書検索に関する現在の評価ベンチマークは、主に英語のみに焦点を当て、合成された質問に依存し、小さなコーパスサイズを提供するため、制限されている。
そこで本稿では,多言語視覚文書評価評価ベンチマークであるMIRACL-VISIONを紹介する。
MIRACL-VISIONは18言語をカバーし、テキストベースの多言語検索パイプラインを評価するために人気のあるベンチマークであるMIRACLデータセットの拡張である。
MIRACLは、人間の集中的なアノテーションプロセスを使って、高品質な質問を生成する。
MIRACL-VISIONコーパスサイズを小さくし、データセットを困難に保ちながら、より計算しやすいものにするため、我々は、コーパスから"簡単"なネガを除去する方法を考案した。
我々は、MIRACL-VISIONを他のベンチマークと比較し、人気のある公開テキストと画像モデルを用いて広範な実験を行った。
我々は、テキストベースの検索モデルよりも59.7%低い精度で、多言語機能における最先端のVLMベースの埋め込みモデルのギャップを観察する。
英語でも、視覚モデル検索の精度はテキストベースのモデルに比べて12.1%低い。
MIRACL-VISIONは、ビジュアル検索パイプラインのための困難で代表的な多言語評価ベンチマークであり、コミュニティがドキュメント検索のための堅牢なモデルを構築するのに役立つ。
関連論文リスト
- MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。