Fugu-MT 論文翻訳(概要): Digital Editions as Distant Supervision for Layout Analysis of Printed Books

論文の概要: Digital Editions as Distant Supervision for Layout Analysis of Printed Books

arxiv url: http://arxiv.org/abs/2112.12703v1
Date: Thu, 23 Dec 2021 16:51:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-24 18:31:59.143081
Title: Digital Editions as Distant Supervision for Layout Analysis of Printed Books
Title（参考訳）: 印刷書籍のレイアウト分析のためのディスタント・スーパービジョンとしてのデジタル版
Authors: Alejandro H. Toselli, Si Wu and David A. Smith
Abstract要約: 本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。 DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
参考スコア（独自算出の注目度）: 76.29918490722902
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Archivists, textual scholars, and historians often produce digital editions of historical documents. Using markup schemes such as those of the Text Encoding Initiative and EpiDoc, these digital editions often record documents' semantic regions (such as notes and figures) and physical features (such as page and line breaks) as well as transcribing their textual content. We describe methods for exploiting this semantic markup as distant supervision for training and evaluating layout analysis models. In experiments with several model architectures on the half-million pages of the Deutsches Textarchiv (DTA), we find a high correlation of these region-level evaluation methods with pixel-level and word-level metrics. We discuss the possibilities for improving accuracy with self-training and the ability of models trained on the DTA to generalize to other historical printed books.
Abstract（参考訳）: アーキビスト、テキスト学者、歴史家は、しばしば歴史文書のデジタル版を制作する。 Text Encoding Initiative や EpiDoc のようなマークアップスキームを用いて、これらのデジタル版は文書の意味領域(メモや図形など)や物理的な特徴(ページや行切れなど)を記録したり、テキストの内容の書き起こしを行う。この意味的マークアップを利用する手法を,レイアウト解析モデルのトレーニングおよび評価のための遠隔監視として記述する。 DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。

関連論文リスト

Structure-Aware Text Recognition for Ancient Greek Critical Editions [16.43811675687955]
本稿では,古代ギリシアの批判版に対する構造対応テキスト認識について検討する。 TEI/XMLソースから生成される185,000ページ画像の大規模な合成コーパスを,タイポグラフィとレイアウトの変動を制御して導入する。ゼロショット型と微調整型の両方の条件下で,最先端の3つのビジュアル言語モデルを評価する。
論文参考訳（メタデータ） (2026-03-03T09:42:43Z)
FP-THD: Full page transcription of historical documents [0.0]
本研究は, 特色を保存した史料の書き起こしのためのパイプラインを提案する。我々は、レイアウト解析モデルを用いて過去のテキスト画像を分析し、テキスト行を抽出し、OCRモデルで処理し、完全にデジタル化されたページを生成する。
論文参考訳（メタデータ） (2026-01-20T07:13:38Z)
The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing [2.7471068141502]
我々は,アルファベットなどの新しいデータ分布に一般化可能なモデルの構築を,集中的な微調整戦略よりも高速に行うことを目的としている。最先端のメタラーニングとは対照的に、データのスパース分布におけるドメインマージの有効性を示す。この研究は、表現不足のアルファベットを簡単に適用できるモデルを構築するための新しいアプローチに寄与する。
論文参考訳（メタデータ） (2025-06-07T11:05:33Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。 2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文参考訳（メタデータ） (2024-03-12T10:04:08Z)
PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文参考訳（メタデータ） (2023-10-22T08:45:48Z)
Document AI: A Comparative Study of Transformer-Based, Graph-Based Models, and Convolutional Neural Networks For Document Layout Analysis [3.231170156689185]
Document AIは、自然言語処理とコンピュータビジョン技術を活用して、文書を自動的に分析することを目的としている。 Document AIの主要なタスクの1つはドキュメントレイアウト分析であり、レイアウト、画像、テキストの内容と空間的関係を解釈することでドキュメントページを構造化する。
論文参考訳（メタデータ） (2023-08-29T16:58:03Z)
The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文参考訳（メタデータ） (2023-02-03T11:17:59Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。 InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文参考訳（メタデータ） (2022-09-27T12:26:05Z)
Robust Text Line Detection in Historical Documents: Learning and Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文参考訳（メタデータ） (2022-03-23T11:56:25Z)
Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文参考訳（メタデータ） (2021-12-26T07:31:03Z)
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文参考訳（メタデータ） (2021-05-10T06:55:39Z)
Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文参考訳（メタデータ） (2020-11-04T13:06:46Z)
A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文参考訳（メタデータ） (2020-08-02T00:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。