論文の概要: Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)
- arxiv url: http://arxiv.org/abs/2606.04240v1
- Date: Tue, 02 Jun 2026 21:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.396945
- Title: Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)
- Title(参考訳): EReL@MIR 2025 Multimodal Document Retrieval Challenge(トラック1)の概要
- Authors: Jingbiao Mei,
- Abstract要約: MIR Challengeは、Web Conference 2025と共同で、最初のEReL@MIRワークショップで開催された。
参加者には、2つの補完的な体制を扱うエンフィングル検索システムの構築を依頼した。
本報告では,課題設計,データセット,評価プロトコルについて述べる。
- 参考スコア(独自算出の注目度): 4.198923768732269
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval over visually-rich documents, pages that interleave text with figures, tables, and charts, is essential for multimodal retrieval-augmented generation, yet most retrievers still discard the visual channel. The \emph{Multimodal Document Retrieval Challenge}, Track~1 of the MIR Challenge at the first EReL@MIR workshop, co-located with The Web Conference 2025, asks participants to build a \emph{single} retrieval system that handles two complementary regimes: closed-set document page retrieval within long documents from a text query (MMDocIR), and open-domain retrieval of Wikipedia-style passages from an image or image-plus-text query (M2KR). Systems are ranked by the macro-average of mean Recall@$\{1,3,5\}$ over the two tasks. The challenge drew 455 entrants and 586 submissions across 22 teams. This report describes the challenge design, datasets, and evaluation protocol; reports the final standings; and analyses the three winning teams' systems. All three build on decoder-based Multimodal-LLM embedders from the Qwen2-VL family rather than on CLIP-style encoders, and differ chiefly in whether they reach the top through fine-tuned ensembles, training-free multi-route fusion with a strong vision-language re-ranker, or zero-shot late interaction. The training-free system finished within $0.1$ point of the fine-tuned winner.
- Abstract(参考訳): 視覚的に豊富なドキュメント、図、表、チャートとテキストをインターリーブするページを検索することは、多モーダルな検索拡張生成には不可欠であるが、ほとんどの検索者は依然としてビジュアルチャネルを捨てている。
The Web Conference 2025と共同で開催される第1回EReL@MIRワークショップのMIRチャレンジのトラック〜1では、参加者に対して、2つの補完的なレギュレーションを扱う「emph{single}」検索システムの構築を依頼している。
システムは、平均的なRecall@$\{1,3,5\}$のマクロ平均によってランク付けされる。
この挑戦は22チームで455人が参加し、586人が応募した。
本報告では,課題設計,データセット,評価プロトコルについて述べる。
3つのビルドは、CLIPスタイルのエンコーダではなく、Qwen2-VLファミリからのマルチモーダル-LLMインバーダをベースとしている。
トレーニングなしのシステムは、微調整された勝者の0.1ドル以内で完了した。
関連論文リスト
- ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts [47.61983500021015]
文書画像機械翻訳(DIMT)は、ある言語から別の言語への文書画像に埋め込まれたテキストの翻訳を試みる。
DIMT 2025 Challengeは、エンドツーエンドの文書画像翻訳の研究を推進している。
コンペティションには2つのトラック、OCRフリーとOCRベースがあり、それぞれ小さな(1Bパラメータ未満)用の2つのサブタスクと大きな(1Bパラメータ以上)モデルがある。
論文 参考訳(メタデータ) (2026-03-10T09:04:38Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents [10.146296597660598]
既存のビジュアル文書検索(VDR)のベンチマークは、非英語言語と公式出版物の構造的複雑さを概ね見落としている。
SDS KoPub VDRは,韓国の公文書の検索と理解のための,最初の大規模公開ベンチマークである。
ベンチマークは361の現実世界のドキュメント上に構築されており、KOGL Type 1ライセンス下の256ファイル、公式の法的ポータルからの105ファイルが含まれている。
論文 参考訳(メタデータ) (2025-11-07T01:16:07Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - DocMMIR: A Framework for Document Multi-modal Information Retrieval [35.41540195822167]
本稿では,新しいマルチモーダル文書検索フレームワークDocMMIRを紹介する。
450Kサンプルからなる大規模クロスドメインマルチモーダルベンチマークを構築した。
その結果、ゼロショットベースラインに比べてMRR@10は+31%改善した。
論文 参考訳(メタデータ) (2025-05-25T20:58:58Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Sequence-aware multimodal page classification of Brazilian legal
documents [0.21204495827342434]
我々は,新たな6,510件の訴訟のマルチモーダルデータセットをトレーニングし,評価する。
各訴訟は順序付けられたページのシーケンスであり、画像と対応するテキストの両方として格納される。
我々はこれらを視覚的特徴とテキスト的特徴の抽出器として使用し、提案したFusion Moduleを通して組み合わせる。
論文 参考訳(メタデータ) (2022-07-02T06:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。