論文の概要: SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents
- arxiv url: http://arxiv.org/abs/2511.04910v2
- Date: Mon, 10 Nov 2025 04:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.571405
- Title: SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents
- Title(参考訳): SDS KoPub VDR:韓国の公文書におけるビジュアルドキュメント検索のためのベンチマークデータセット
- Authors: Jaehoon Lee, Sohyun Kim, Wanggeun Park, Geon Lee, Seungkyung Kim, Minyoung Lee,
- Abstract要約: 既存のビジュアル文書検索(VDR)のベンチマークは、非英語言語と公式出版物の構造的複雑さを概ね見落としている。
SDS KoPub VDRは,韓国の公文書の検索と理解のための,最初の大規模公開ベンチマークである。
ベンチマークは361の現実世界のドキュメント上に構築されており、KOGL Type 1ライセンス下の256ファイル、公式の法的ポータルからの105ファイルが含まれている。
- 参考スコア(独自算出の注目度): 10.146296597660598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing benchmarks for visual document retrieval (VDR) largely overlook non-English languages and the structural complexity of official publications. To address this gap, we introduce SDS KoPub VDR, the first large-scale, public benchmark for retrieving and understanding Korean public documents. The benchmark is built upon 361 real-world documents, including 256 files under the KOGL Type 1 license and 105 from official legal portals, capturing complex visual elements like tables, charts, and multi-column layouts. To establish a reliable evaluation set, we constructed 600 query-page-answer triples. These were initially generated using multimodal models (e.g., GPT-4o) and subsequently underwent human verification to ensure factual accuracy and contextual relevance. The queries span six major public domains and are categorized by the reasoning modality required: text-based, visual-based, and cross-modal. We evaluate SDS KoPub VDR on two complementary tasks: (1) text-only retrieval and (2) multimodal retrieval, which leverages visual features alongside text. This dual-task evaluation reveals substantial performance gaps, particularly in multimodal scenarios requiring cross-modal reasoning, even for state-of-the-art models. As a foundational resource, SDS KoPub VDR enables rigorous and fine-grained evaluation and provides a roadmap for advancing multimodal AI in real-world document intelligence. The dataset is available at https://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmark.
- Abstract(参考訳): 既存のビジュアル文書検索(VDR)のベンチマークは、非英語言語と公式出版物の構造的複雑さを概ね見落としている。
このギャップに対処するために,韓国の公文書の検索と理解のための,最初の大規模公開ベンチマークであるSDS KoPub VDRを紹介する。
KOGL Type 1ライセンス下で256ファイル、公式の法的ポータルから105ファイル、テーブル、チャート、マルチカラムレイアウトなどの複雑なビジュアル要素をキャプチャする。
信頼性の高い評価セットを確立するため,600個のクエリー・ページ・アンサー・トリプルを構築した。
これらは最初、マルチモーダルモデル(例: GPT-4o)を用いて生成され、その後、事実の正確性と文脈的関連性を保証するために人間による検証が行われた。
クエリは6つの主要なパブリックドメインにまたがり、テキストベース、ビジュアルベース、クロスモーダルという、必要な推論モダリティによって分類される。
我々は,(1)テキストのみの検索と(2)テキストと並行して視覚的特徴を活用するマルチモーダル検索という2つの相補的なタスクにおいて,SDS KoPub VDRを評価する。
このデュアルタスク評価は、特に最先端モデルであっても、クロスモーダル推論を必要とするマルチモーダルシナリオにおいて、大きなパフォーマンスギャップを示す。
基本的なリソースとして、SDS KoPub VDRは厳密できめ細かな評価を可能にし、現実世界のドキュメントインテリジェンスにおいてマルチモーダルAIを前進させるためのロードマップを提供する。
データセットはhttps://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmarkで公開されている。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。