論文の概要: BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction
- arxiv url: http://arxiv.org/abs/2503.19658v1
- Date: Tue, 25 Mar 2025 13:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:44.324468
- Title: BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction
- Title(参考訳): BiblioPage: 書誌メタデータ抽出のためのスキャンされたタイトルページのデータセット
- Authors: Jan Kohút, Martin Dočekal, Michal Hradiš, Marek Vaško,
- Abstract要約: BiblioPageは、構造化メタデータを付加したスキャン済みのタイトルページのデータセットである。
このデータセットは、チェコの14の図書館から集められた約2,000のタイトルページで構成されている。
YOLO や DETR などの物体検出モデルと変換器を用いた OCR を併用し,最大 mAP 52 と F1 59。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Manual digitization of bibliographic metadata is time consuming and labor intensive, especially for historical and real-world archives with highly variable formatting across documents. Despite advances in machine learning, the absence of dedicated datasets for metadata extraction hinders automation. To address this gap, we introduce BiblioPage, a dataset of scanned title pages annotated with structured bibliographic metadata. The dataset consists of approximately 2,000 monograph title pages collected from 14 Czech libraries, spanning a wide range of publication periods, typographic styles, and layout structures. Each title page is annotated with 16 bibliographic attributes, including title, contributors, and publication metadata, along with precise positional information in the form of bounding boxes. To extract structured information from this dataset, we valuated object detection models such as YOLO and DETR combined with transformer-based OCR, achieving a maximum mAP of 52 and an F1 score of 59. Additionally, we assess the performance of various visual large language models, including LlamA 3.2-Vision and GPT-4o, with the best model reaching an F1 score of 67. BiblioPage serves as a real-world benchmark for bibliographic metadata extraction, contributing to document understanding, document question answering, and document information extraction. Dataset and evaluation scripts are availible at: https://github.com/DCGM/biblio-dataset
- Abstract(参考訳): 書誌メタデータのマニュアルのデジタル化は、特に文書間で高度に可変なフォーマットを持つ歴史的および現実世界のアーカイブにとって、時間と労力のかかるものである。
機械学習の進歩にもかかわらず、メタデータ抽出専用のデータセットがないことは自動化を妨げる。
このギャップに対処するために、構造化書誌メタデータを付加したスキャンされたタイトルページのデータセットであるBiblioPageを紹介した。
このデータセットは、チェコの14の図書館から収集された約2,000のモノグラフのタイトルページで構成されており、幅広い出版期間、タイポグラフィーのスタイル、レイアウト構造にまたがっている。
各タイトルページには、タイトル、コントリビュータ、出版メタデータを含む16の書誌属性と、バウンディングボックスの正確な位置情報が注釈付けされている。
このデータセットから構造化情報を抽出するため, YOLOやDETRなどのオブジェクト検出モデルとトランスフォーマーベースのOCRを組み合わせることで, 最大mAP52とF1スコア59を達成できた。
さらに,LlamA 3.2-Vision や GPT-4o など様々な視覚的大言語モデルの性能評価を行った。
BiblioPageは、文献メタデータ抽出のための実世界のベンチマークとして機能し、文書理解、文書質問応答、文書情報抽出に貢献する。
データセットと評価スクリプトは、https://github.com/DCGM/biblio-datasetで利用可能である。
関連論文リスト
- TWIX: Automatically Reconstructing Structured Data from Templatized Documents [11.03654616939188]
私たちのツールであるTWIXは、テンプレート化されたドキュメントを作成するために使用されるテンプレートを予測します。
TWIXは90%以上の精度を達成し、業界における平均的かつ優れたツールをリコールする。
TWIXは大規模なデータセットに容易にスケールでき、817ページの巨大なドキュメントコレクションからデータを抽出するビジョンベースのLCMよりも734倍高速で5836倍安価である。
論文 参考訳(メタデータ) (2025-01-11T23:07:04Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - SDL: New data generation tools for full-level annotated document layout [0.0]
文書処理のための新しいデータ生成ツールを提案する。
このツールは、通常の型文書に最大レベルの視覚情報を提供することに重点を置いている。
また、低リソース言語で大規模なデータセットを扱うこともできる。
論文 参考訳(メタデータ) (2021-06-29T06:32:31Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。