論文の概要: From Codicology to Code: A Comparative Study of Transformer and YOLO-based Detectors for Layout Analysis in Historical Documents
- arxiv url: http://arxiv.org/abs/2506.20326v1
- Date: Wed, 25 Jun 2025 11:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.708271
- Title: From Codicology to Code: A Comparative Study of Transformer and YOLO-based Detectors for Layout Analysis in Historical Documents
- Title(参考訳): コーディノロジーからコードへ:歴史文書におけるレイアウト解析のためのトランスフォーマーとYOLOを用いた検出器の比較研究
- Authors: Sergio Torres Aguilar,
- Abstract要約: 本稿では,3つの注釈付きデータセットに対して,最先端のオブジェクト検出アーキテクチャを5つベンチマークする。
2つのトランスフォーマーモデル(Co-DETR, Grounding DINO)を3つのYOLOモデルと比較した。
構造化レイアウトの理想であるトランスフォーマーのグローバルコンテキスト認識と、視覚的に多様で複雑な文書に対するCNN-OBBモデルの優れた一般化との間には、重要なトレードオフが存在すると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Robust Document Layout Analysis (DLA) is critical for the automated processing and understanding of historical documents with complex page organizations. This paper benchmarks five state-of-the-art object detection architectures on three annotated datasets representing a spectrum of codicological complexity: The e-NDP, a corpus of Parisian medieval registers (1326-1504); CATMuS, a diverse multiclass dataset derived from various medieval and modern sources (ca.12th-17th centuries) and HORAE, a corpus of decorated books of hours (ca.13th-16th centuries). We evaluate two Transformer-based models (Co-DETR, Grounding DINO) against three YOLO variants (AABB, OBB, and YOLO-World). Our findings reveal significant performance variations dependent on model architecture, data set characteristics, and bounding box representation. In the e-NDP dataset, Co-DETR achieves state-of-the-art results (0.752 mAP@.50:.95), closely followed by YOLOv11X-OBB (0.721). Conversely, on the more complex CATMuS and HORAE datasets, the CNN-based YOLOv11x-OBB significantly outperforms all other models (0.564 and 0.568, respectively). This study unequivocally demonstrates that using Oriented Bounding Boxes (OBB) is not a minor refinement but a fundamental requirement for accurately modeling the non-Cartesian nature of historical manuscripts. We conclude that a key trade-off exists between the global context awareness of Transformers, ideal for structured layouts, and the superior generalization of CNN-OBB models for visually diverse and complex documents.
- Abstract(参考訳): Robust Document Layout Analysis (DLA)は、複雑なページ組織による履歴文書の自動処理と理解に不可欠である。
本論文は,パリの中世登録簿 (1326-1504) のコーパスである e-NDP と,中世・現代資料 (12世紀~17世紀) から派生した多種多様なマルチクラスデータセットである CATMuS と,装飾された時間帯 (13世紀~16世紀) のコーパスである HORAE の3つの注釈付きデータセットに対して,最先端のオブジェクト検出アーキテクチャをベンチマークする。
本研究では,2種類のトランスフォーマーモデル (Co-DETR, Grounding DINO) と3種類のYOLOモデル (AABB, OBB, YOLO-World) を比較した。
この結果から,モデルアーキテクチャ,データセット特性,バウンディングボックス表現に依存する重要な性能変化が明らかになった。
e-NDPデータセットでは、Co-DETRは最先端の結果(0.752 mAP@.50:.95)を達成し、その後にYOLOv11X-OBB (0.721)が続く。
逆に、より複雑なCATMuSとHORAEデータセットでは、CNNベースのYOLOv11x-OBBは、他のモデル(0.564と0.568)よりも大幅に優れている。
この研究は、オリエンテッド・バウンディング・ボックス(OBB)の使用は小さな改良ではなく、歴史的写本の非カルト的性質を正確にモデル化するための基本的な要件であることを示した。
構造化レイアウトの理想であるトランスフォーマーのグローバルコンテキスト認識と、視覚的に多様で複雑な文書に対するCNN-OBBモデルの優れた一般化との間には、重要なトレードオフが存在すると結論付けている。
関連論文リスト
- MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Token and Span Classification for Entity Recognition in French Historical Encyclopedias [0.0]
歴史的テキストにおける名前付きエンティティ認識(NER)は、非標準化言語、古文書正書法、ネストまたは重複エンティティによる固有の課題を示す。
本研究は、古典的条件ランダムフィールド(CRF)やスパシーベースのモデルからトランスフォーマーベースのアーキテクチャまで、さまざまなNERアプローチのベンチマークを行う。
実験は18世紀のフランスの百科事典から派生した豊富な注釈付きコーパスであるGeoEDdAデータセット上で行われた。
論文 参考訳(メタデータ) (2025-06-03T13:37:44Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - Improving Long Document Topic Segmentation Models With Enhanced
Coherence Modeling [19.303419410130672]
トピック認識型文構造予測(TSSP)とコントラスト意味類似学習(CSSL)を提案する。
TSSPタスクは、隣接する文間の原文関係を非アレード文書で学習することにより、モデルに構造情報を理解するよう強制する。
CSSLの目的は、同じトピックの文表現がより類似度が高いのに対して、異なるトピックの文は類似度が低いことを保証することである。
論文 参考訳(メタデータ) (2023-10-18T07:58:47Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。