論文の概要: Few-Shot Connectivity-Aware Text Line Segmentation in Historical Documents
- arxiv url: http://arxiv.org/abs/2508.19162v1
- Date: Tue, 26 Aug 2025 16:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.91192
- Title: Few-Shot Connectivity-Aware Text Line Segmentation in Historical Documents
- Title(参考訳): 史料中のテキスト線分画の少ない接続性
- Authors: Rafael Sterzinger, Tingyu Lin, Robert Sablatnig,
- Abstract要約: 本研究では、トポロジを意識した損失関数と組み合わさった小型でシンプルなアーキテクチャが、より複雑な代替品よりも正確でデータ効率が高いことを実証する。
U-DIADS-TLデータセットでは,認識精度が200%向上し,行間距離が75%向上した。
- 参考スコア(独自算出の注目度): 1.4065611645922207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A foundational task for the digital analysis of documents is text line segmentation. However, automating this process with deep learning models is challenging because it requires large, annotated datasets that are often unavailable for historical documents. Additionally, the annotation process is a labor- and cost-intensive task that requires expert knowledge, which makes few-shot learning a promising direction for reducing data requirements. In this work, we demonstrate that small and simple architectures, coupled with a topology-aware loss function, are more accurate and data-efficient than more complex alternatives. We pair a lightweight UNet++ with a connectivity-aware loss, initially developed for neuron morphology, which explicitly penalizes structural errors like line fragmentation and unintended line merges. To increase our limited data, we train on small patches extracted from a mere three annotated pages per manuscript. Our methodology significantly improves upon the current state-of-the-art on the U-DIADS-TL dataset, with a 200% increase in Recognition Accuracy and a 75% increase in Line Intersection over Union. Our method also achieves an F-Measure score on par with or even exceeding that of the competition winner of the DIVA-HisDB baseline detection task, all while requiring only three annotated pages, exemplifying the efficacy of our approach. Our implementation is publicly available at: https://github.com/RafaelSterzinger/acpr_few_shot_hist.
- Abstract(参考訳): 文書のデジタル解析の基本的なタスクは、テキスト行のセグメンテーションである。
しかし、このプロセスをディープラーニングモデルで自動化することは困難である。
さらに、アノテーションプロセスは、専門家の知識を必要とする労力とコストのかかるタスクであり、少数のショット学習がデータ要求を減らすための有望な方向になります。
本研究では、トポロジを意識した損失関数と組み合わさった小型でシンプルなアーキテクチャが、より複雑な代替品よりも正確でデータ効率が高いことを実証する。
軽量なUNet++とコネクティビティ・アウェア・ロスを組み合わせ、最初は神経形態学のために開発されたが、これは線分断や意図しない線分マージのような構造上のエラーを明示的に罰する。
限られたデータを増やすために、原稿ごとに3ページの注釈付きページから抽出した小さなパッチをトレーニングします。
U-DIADS-TLデータセットでは,認識精度が200%向上し,行間距離が75%向上した。
また,提案手法は,DIVA-HisDBベースライン検出タスクの競争勝者と同等以上のF-Measureスコアを達成でき,しかも3ページのアノテートしか必要とせず,アプローチの有効性を実証する。
私たちの実装は、https://github.com/RafaelSterzinger/acpr_few_shot_histで公開されています。
関連論文リスト
- Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z) - Boosting offline handwritten text recognition in historical documents
with few labeled lines [5.9207487081080705]
大規模データベースからより小さな歴史データベースへの転送学習の方法を分析する。
第2に、TLとデータ拡張を効率的に組み合わせる手法を解析する。
トレーニングセットにおける誤りラベリングの効果を緩和するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-04T11:59:35Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。