論文の概要: Processing the structure of documents: Logical Layout Analysis of
historical newspapers in French
- arxiv url: http://arxiv.org/abs/2202.08125v1
- Date: Wed, 16 Feb 2022 15:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 19:28:50.445317
- Title: Processing the structure of documents: Logical Layout Analysis of
historical newspapers in French
- Title(参考訳): 文書の構造処理:フランスにおける歴史新聞の論理レイアウト分析
- Authors: Nicolas Gutehrl\'e, Iana Atanassova
- Abstract要約: RIPPERとGradient Boostingという2つの機械学習モデルの評価と比較を行った。
私たちのルールベースのシステムは、ほぼすべての評価において、他の2つのモデルよりも優れています。
- 参考スコア(独自算出の注目度): 0.951828574518325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background. In recent years, libraries and archives led important
digitisation campaigns that opened the access to vast collections of historical
documents. While such documents are often available as XML ALTO documents, they
lack information about their logical structure. In this paper, we address the
problem of Logical Layout Analysis applied to historical documents in French.
We propose a rule-based method, that we evaluate and compare with two
Machine-Learning models, namely RIPPER and Gradient Boosting. Our data set
contains French newspapers, periodicals and magazines, published in the first
half of the twentieth century in the Franche-Comt\'e Region. Results. Our
rule-based system outperforms the two other models in nearly all evaluations.
It has especially better Recall results, indicating that our system covers more
types of every logical label than the other two models. When comparing RIPPER
with Gradient Boosting, we can observe that Gradient Boosting has better
Precision scores but RIPPER has better Recall scores. Conclusions. The
evaluation shows that our system outperforms the two Machine Learning models,
and provides significantly higher Recall. It also confirms that our system can
be used to produce annotated data sets that are large enough to envisage
Machine Learning or Deep Learning approaches for the task of Logical Layout
Analysis. Combining rules and Machine Learning models into hybrid systems could
potentially provide even better performances. Furthermore, as the layout in
historical documents evolves rapidly, one possible solution to overcome this
problem would be to apply Rule Learning algorithms to bootstrap rule sets
adapted to different publication periods.
- Abstract(参考訳): 背景。
近年、図書館や文書館が重要なデジタル化運動を率い、膨大な歴史文書の収集が開かれた。
このような文書はXML ALTO文書としてしばしば利用できるが、それらの論理構造に関する情報は乏しい。
本稿では,フランス語の文献に適用される論理レイアウト解析の問題点に対処する。
本稿では,2つの機械学習モデルであるripperとgradient boostingを評価し,比較するルールベース手法を提案する。
我々のデータセットにはフランスの新聞、定期刊行物、雑誌が含まれており、20世紀前半にフランシュ=コンテ地方で出版された。
結果だ
ルールベースのシステムは、ほぼすべての評価において、他の2つのモデルよりも優れています。
Recallの結果は特に優れており、我々のシステムが他の2つのモデルよりも多くの論理ラベルをカバーしていることを示している。
RIPPERとグラディエントブースティングを比較すると、グラディエントブースティングは精度が良いが、RIPPERはリコールスコアが良いことが分かる。
結論だ
評価の結果,本システムは2つの機械学習モデルよりも優れており,リコール率も有意に高いことがわかった。
また,本システムは,論理レイアウト解析のタスクに対して,機械学習やディープラーニングのアプローチを想定するのに十分な大きさのアノテートデータセットを生成するためにも利用できることを確認した。
ルールと機械学習モデルをハイブリッドシステムに組み合わせることで、パフォーマンスはさらに向上する可能性がある。
さらに、歴史文書のレイアウトが急速に進化するにつれて、この問題を克服するための1つの解決策は、異なる出版期間に適応したルールセットをブートストラップするルール学習アルゴリズムを適用することである。
関連論文リスト
- Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Document Domain Randomization for Deep Learning Document Layout
Extraction [37.97092983885967]
文書領域のランダム化(DDR)は,図式化された擬似紙ページのみにトレーニングされた畳み込みニューラルネットワーク(CNN)の転送に成功した最初の例である。
DDRは、興味のあるランダム化されたテキストと非テキストの内容をモデル化することで、擬似文書ページをレンダリングする。
高忠実度意味情報はセマンティッククラスをラベル付けする必要はないが、列車とテスト間のスタイルミスマッチはモデルの精度を低下させる可能性がある。
論文 参考訳(メタデータ) (2021-05-20T19:16:04Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z) - Listwise Learning to Rank by Exploring Unique Ratings [32.857847595096025]
既存のリストワイズ学習-ランクモデルは通常、3つの大きな制限を持つ古典的なプラケット・ルーシモデルから導かれる。
本稿では,適応型Vanilla Recurrent Neural Network(RNN)モデルと,前ステップで与えられた文書をプールすることで,予測スコアを改良する手法を提案する。
実験により、これらのモデルは最先端の学習ランクモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-01-07T00:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。