論文の概要: Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription
- arxiv url: http://arxiv.org/abs/2407.00250v1
- Date: Fri, 28 Jun 2024 22:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 05:50:47.926449
- Title: Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription
- Title(参考訳): Mind the Gap: Transformer-based Transcription を用いた Lacunae の解析
- Authors: Jaydeep Borkar, David A. Smith,
- Abstract要約: 我々は、ラグネーを含む合成データに基づいて訓練されたトランスフォーマーベース光学文字認識(OCR)モデルを採用する。
本研究は,ラグナの検出および修復における有効性を示し,その成功率を65%とした。
- 参考スコア(独自算出の注目度): 2.486161976966064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Historical documents frequently suffer from damage and inconsistencies, including missing or illegible text resulting from issues such as holes, ink problems, and storage damage. These missing portions or gaps are referred to as lacunae. In this study, we employ transformer-based optical character recognition (OCR) models trained on synthetic data containing lacunae in a supervised manner. We demonstrate their effectiveness in detecting and restoring lacunae, achieving a success rate of 65%, compared to a base model lacking knowledge of lacunae, which achieves only 5% restoration. Additionally, we investigate the mechanistic properties of the model, such as the log probability of transcription, which can identify lacunae and other errors (e.g., mistranscriptions due to complex writing or ink issues) in line images without directly inspecting the image. This capability could be valuable for scholars seeking to distinguish images containing lacunae or errors from clean ones. Although we explore the potential of attention mechanisms in flagging lacunae and transcription errors, our findings suggest it is not a significant factor. Our work highlights a promising direction in utilizing transformer-based OCR models for restoring or analyzing damaged historical documents.
- Abstract(参考訳): 歴史的文書は、しばしば、穴、インクの問題、ストレージの損傷などの問題によって、欠落または不可解なテキストを含む損傷や不整合に悩まされる。
これらの欠落した部分や隙間をラグナ(lacunae)と呼ぶ。
本研究では,ラグネーを含む合成データに基づいて学習したトランスフォーマーを用いた光学文字認識(OCR)モデルを用いた。
本研究は,ラッカネーの知識が乏しいベースモデルに対して,ラッカネーの検出と復元において有効性を示し,成功率を65%とした。
さらに, 画像を直接検査することなく, 行画像中のラグネーやその他の誤り(例えば, 複雑な筆記やインク問題による誤転写)を識別できる転写のログ確率などのモデルの力学特性について検討する。
この能力は、漆や誤りを含む画像と清潔な画像とを区別しようとする学者にとって貴重である。
ラクナのフラグングや転写誤りに対する注意機構の可能性について検討するが,本研究は重要な要因ではないことを示唆する。
本研究は,損傷した史料の復元・解析にトランスフォーマーを用いたOCRモデルを利用する上で,有望な方向性を示すものである。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Exposing Image Splicing Traces in Scientific Publications via Uncertainty-guided Refinement [30.698359275889363]
画像操作の疑いのある科学出版物の急増は、多くの撤回につながった。
画像スプライシング検出は、参照画像の欠如と典型的には小さな改ざんされた領域のため、より困難である。
本稿では,破壊要因の影響を軽減するために,不確実性誘導型リファインメントネットワーク(URN)を提案する。
論文 参考訳(メタデータ) (2023-09-28T12:36:12Z) - What can we learn about a generated image corrupting its latent
representation? [57.1841740328509]
GANのボトルネックにおける潜在表現に基づいて画像品質を予測できるという仮説を考察する。
遅延表現を雑音で破壊し、複数の出力を生成することでこれを実現できる。
論文 参考訳(メタデータ) (2022-10-12T14:40:32Z) - Learning to Identify Drilling Defects in Turbine Blades with Single
Stage Detectors [15.842163335920954]
タービンブレードのX線画像における網膜ドリル欠陥に基づくモデルを提案する。
このアプリケーションは、欠陥が非常に小さく、一般的に使用されるアンカーサイズによって捉えられにくい画像解像度のため、難しい。
このモデルを3ドルのクロスバリデーションで検証し,欠陥のある画像の同定に極めて高い精度を示す。
論文 参考訳(メタデータ) (2022-08-08T18:44:51Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。