論文の概要: SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents
- arxiv url: http://arxiv.org/abs/2511.04910v1
- Date: Fri, 07 Nov 2025 01:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.637815
- Title: SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents
- Title(参考訳): SDS KoPub VDR:韓国の公文書におけるビジュアルドキュメント検索のためのベンチマークデータセット
- Authors: Jaehoon Lee, Sohyun Kim, Wanggeun Park, Geon Lee, Seungkyung Kim, Minyoung Lee,
- Abstract要約: 既存のビジュアル文書検索(VDR)のベンチマークは、ほとんど英語以外の言語を見落としている。
SDS KoPub VDRは,韓国の公文書の検索と理解のための,最初の大規模かつ一般公開されたベンチマークである。
- 参考スコア(独自算出の注目度): 10.146296597660598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing benchmarks for visual document retrieval (VDR) largely overlook non-English languages and the structural complexity of official publications. To address this critical gap, we introduce SDS KoPub VDR, the first large-scale, publicly available benchmark for retrieving and understanding Korean public documents. The benchmark is built upon a corpus of 361 real-world documents (40,781 pages), including 256 files under the KOGL Type 1 license and 105 from official legal portals, capturing complex visual elements like tables, charts, and multi-column layouts. To establish a challenging and reliable evaluation set, we constructed 600 query-page-answer triples. These were initially generated using multimodal models (e.g., GPT-4o) and subsequently underwent a rigorous human verification and refinement process to ensure factual accuracy and contextual relevance. The queries span six major public domains and are systematically categorized by the reasoning modality required: text-based, visual-based (e.g., chart interpretation), and cross-modal. We evaluate SDS KoPub VDR on two complementary tasks that reflect distinct retrieval paradigms: (1) text-only retrieval, which measures a model's ability to locate relevant document pages based solely on textual signals, and (2) multimodal retrieval, which assesses retrieval performance when visual features (e.g., tables, charts, and layouts) are jointly leveraged alongside text. This dual-task evaluation reveals substantial performance gaps, particularly in multimodal scenarios requiring cross-modal reasoning, even for state-of-the-art models. As a foundational resource, SDS KoPub VDR not only enables rigorous and fine-grained evaluation across textual and multimodal retrieval tasks but also provides a clear roadmap for advancing multimodal AI in complex, real-world document intelligence.
- Abstract(参考訳): 既存のビジュアル文書検索(VDR)のベンチマークは、非英語言語と公式出版物の構造的複雑さを概ね見落としている。
この重要なギャップに対処するために、韓国の公文書の検索と理解のための、最初の大規模で一般公開されたベンチマークであるSDS KoPub VDRを紹介します。
ベンチマークは361の現実世界のドキュメント(40,781ページ)のコーパス上に構築されており、KOGL Type 1ライセンス下の256ファイルと公式の法的ポータルからの105ファイルが含まれ、テーブル、チャート、マルチカラムレイアウトなどの複雑なビジュアル要素をキャプチャする。
困難かつ信頼性の高い評価セットを確立するため,600のクエリーページ答え三重項を構築した。
これらは最初、マルチモーダルモデル(例: GPT-4o)を用いて生成され、その後、事実の正確性と文脈的関連性を保証するための厳密な検証と改善プロセスが実施された。
クエリは6つの主要なパブリックドメインにまたがっており、テキストベース、ビジュアルベース(例えば、チャートの解釈)、クロスモーダル(英語版)といった推論モダリティによって体系的に分類されている。
我々は,(1)テキストのみの検索,(2)テキストのみの検索,2)視覚的特徴(表,表,レイアウトなど)がテキストと一緒に活用される場合の検索性能を評価するマルチモーダル検索という2つの相補的タスクについて,SDS KoPub VDRを評価した。
このデュアルタスク評価は、特に最先端モデルであっても、クロスモーダル推論を必要とするマルチモーダルシナリオにおいて、大きなパフォーマンスギャップを示す。
基本的なリソースとして、SDS KoPub VDRは、テキストおよびマルチモーダル検索タスク間の厳密できめ細かな評価を可能にするだけでなく、複雑な実世界の文書インテリジェンスにおいて、マルチモーダルAIを前進させるための明確なロードマップを提供する。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。