論文の概要: IRPAPERS: A Visual Document Benchmark for Scientific Retrieval and Question Answering
- arxiv url: http://arxiv.org/abs/2602.17687v1
- Date: Thu, 05 Feb 2026 21:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.522196
- Title: IRPAPERS: A Visual Document Benchmark for Scientific Retrieval and Question Answering
- Title(参考訳): IRPAPERS: 科学的検索と質問応答のためのビジュアルドキュメントベンチマーク
- Authors: Connor Shorten, Augustas Skaburskas, Daniel M. Jones, Charles Pierse, Roberto Esposito, John Trengrove, Etienne Dilocker, Bob van Luijt,
- Abstract要約: 我々は166の科学論文から3,230ページのベンチマークであるIRPAPERSを紹介し、各ページに画像とOCRの書き起こしがある。
画像とテキストによる検索と質問応答システムの比較を行った。
我々は、一助文と画像表現の限界を分析し、一方のモダリティを必要とする質問タイプを他方で識別する。
- 参考スコア(独自算出の注目度): 1.4427879901952518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems have achieved remarkable success in processing text and relational data, yet visual document processing remains relatively underexplored. Whereas traditional systems require OCR transcriptions to convert these visual documents into text and metadata, recent advances in multimodal foundation models offer retrieval and generation directly from document images. This raises a key question: How do image-based systems compare to established text-based methods? We introduce IRPAPERS, a benchmark of 3,230 pages from 166 scientific papers, with both an image and an OCR transcription for each page. Using 180 needle-in-the-haystack questions, we compare image- and text-based retrieval and question answering systems. Text retrieval using Arctic 2.0 embeddings, BM25, and hybrid text search achieved 46% Recall@1, 78% Recall@5, and 91% Recall@20, while image-based retrieval reaches 43%, 78%, and 93%, respectively. The two modalities exhibit complementary failures, enabling multimodal hybrid search to outperform either alone, achieving 49% Recall@1, 81% Recall@5, and 95% Recall@20. We further evaluate efficiency-performance tradeoffs with MUVERA and assess multiple multi-vector image embedding models. Among closed-source models, Cohere Embed v4 page image embeddings outperform Voyage 3 Large text embeddings and all tested open-source models, achieving 58% Recall@1, 87% Recall@5, and 97% Recall@20. For question answering, text-based RAG systems achieved higher ground-truth alignment than image-based systems (0.82 vs. 0.71), and both benefit substantially from increased retrieval depth, with multi-document retrieval outperforming oracle single-document retrieval. We analyze the complementary limitations of unimodal text and image representations and identify question types that require one modality over the other. The IRPAPERS dataset and all experimental code are publicly available.
- Abstract(参考訳): AIシステムはテキストとリレーショナルデータの処理で顕著な成功を収めているが、ビジュアルドキュメント処理はいまだにあまり研究されていない。
従来のシステムでは、これらのビジュアル文書をテキストやメタデータに変換するためにOCRの書き起こしを必要とするが、近年のマルチモーダル基盤モデルの進歩は、文書画像から直接検索と生成を提供する。
画像ベースのシステムは、既存のテキストベースの方法と比較してどうでしょうか?
我々は166の科学論文から3,230ページのベンチマークであるIRPAPERSを紹介し、各ページに画像とOCRの書き起こしがある。
画像とテキストによる検索と質問応答システムの比較を行った。
Arctic 2.0埋め込み、BM25、ハイブリッドテキスト検索によるテキスト検索は、Recall@1、78% Recall@5、91% Recall@20を達成し、画像ベースの検索は、それぞれ43%、78%、93%に達した。
この2つのモダリティは相補的な失敗を示し、マルチモーダルハイブリッド検索は単独でもパフォーマンスが49%のRecall@1、81%のRecall@5、95%のRecall@20を達成できる。
さらに、MUVERAによる効率-性能トレードオフを評価し、複数のマルチベクトル画像埋め込みモデルを評価する。
クローズドソースモデルの中で、Cohere Embed v4ページのイメージ埋め込みはVoyage 3より優れており、大規模なテキスト埋め込みとすべてのテスト済みオープンソースモデルで58%のリコール@1、87%のリコール@5、97%のリコール@20を達成している。
質問応答では,テキストベースRAGシステムの方が画像ベースシステムよりも高信頼度を実現し(0.82 vs. 0.71),検索深度が向上し,オラクル単一文書検索に優れる多文書検索が実現した。
我々は、一助文と画像表現の相補的制限を分析し、一方のモダリティを必要とする質問タイプを他方で識別する。
IRPAPERSデータセットと実験コードはすべて公開されている。
関連論文リスト
- PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing [3.889218009169166]
Composed Image Retrieval (CIR) は大きな進歩を遂げているが、現在のベンチマークは1つの接地的回答に限られている。
我々は、7,635のクエリと329Kの関連判断を備えた総合的な実世界のベンチマークであるPinPointを紹介する。
論文 参考訳(メタデータ) (2026-03-04T20:55:30Z) - MM-BRIGHT: A Multi-Task Multimodal Benchmark for Reasoning-Intensive Retrieval [18.53521844184766]
MM-BRIGHTは推論集約検索のための最初のマルチモーダルベンチマークである。
我々のデータセットは29の技術的領域にまたがる2,803の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2026-01-14T15:31:54Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling [58.251621637466904]
Muti-query Scene Text Search with Attention recycling (MSTAR) は、シーンテキスト検索のためのボックスフリーアプローチである。
プログレッシブ・ビジョンの埋め込みを取り入れ、テキストのマルチグラデーション表現を動的にキャプチャする。
7つの公開データセットとMQTRデータセットにまたがって,我々の手法の優位性を実証した。
論文 参考訳(メタデータ) (2025-06-12T11:54:13Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy [23.041812897803034]
Zero-shot Composed Image Retrieval (ZSCIR)は、クエリイメージと相対的なキャプションにマッチした画像を取得する必要がある。
我々は、クエリ画像とテキスト記述に整合したプロキシ画像を生成する訓練不要な方法であるImagined Proxy for CIR(IP-CIR)を紹介した。
新たに提案したバランス指標はテキストベースとプロキシ検索の類似性を統合し,より正確な画像検索を可能にする。
論文 参考訳(メタデータ) (2024-11-24T05:27:21Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。