論文の概要: Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription
- arxiv url: http://arxiv.org/abs/2407.00250v1
- Date: Fri, 28 Jun 2024 22:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-04 05:50:47.926449
- Title: Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription
- Title(参考訳): Mind the Gap: Transformer-based Transcription を用いた Lacunae の解析
- Authors: Jaydeep Borkar, David A. Smith,
- Abstract要約: 我々は、ラグネーを含む合成データに基づいて訓練されたトランスフォーマーベース光学文字認識(OCR)モデルを採用する。
本研究は,ラグナの検出および修復における有効性を示し,その成功率を65%とした。
- 参考スコア(独自算出の注目度): 2.486161976966064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Historical documents frequently suffer from damage and inconsistencies, including missing or illegible text resulting from issues such as holes, ink problems, and storage damage. These missing portions or gaps are referred to as lacunae. In this study, we employ transformer-based optical character recognition (OCR) models trained on synthetic data containing lacunae in a supervised manner. We demonstrate their effectiveness in detecting and restoring lacunae, achieving a success rate of 65%, compared to a base model lacking knowledge of lacunae, which achieves only 5% restoration. Additionally, we investigate the mechanistic properties of the model, such as the log probability of transcription, which can identify lacunae and other errors (e.g., mistranscriptions due to complex writing or ink issues) in line images without directly inspecting the image. This capability could be valuable for scholars seeking to distinguish images containing lacunae or errors from clean ones. Although we explore the potential of attention mechanisms in flagging lacunae and transcription errors, our findings suggest it is not a significant factor. Our work highlights a promising direction in utilizing transformer-based OCR models for restoring or analyzing damaged historical documents.
- Abstract(参考訳): 歴史的文書は、しばしば、穴、インクの問題、ストレージの損傷などの問題によって、欠落または不可解なテキストを含む損傷や不整合に悩まされる。
これらの欠落した部分や隙間をラグナ(lacunae)と呼ぶ。
本研究では,ラグネーを含む合成データに基づいて学習したトランスフォーマーを用いた光学文字認識(OCR)モデルを用いた。
本研究は,ラッカネーの知識が乏しいベースモデルに対して,ラッカネーの検出と復元において有効性を示し,成功率を65%とした。
さらに, 画像を直接検査することなく, 行画像中のラグネーやその他の誤り(例えば, 複雑な筆記やインク問題による誤転写)を識別できる転写のログ確率などのモデルの力学特性について検討する。
この能力は、漆や誤りを含む画像と清潔な画像とを区別しようとする学者にとって貴重である。
ラクナのフラグングや転写誤りに対する注意機構の可能性について検討するが,本研究は重要な要因ではないことを示唆する。
本研究は,損傷した史料の復元・解析にトランスフォーマーを用いたOCRモデルを利用する上で,有望な方向性を示すものである。
関連論文リスト
- Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model [0.07874708385247352]
18世紀の印刷テキストのOCRは、劣化した印刷品質、古式グリフ、標準化されていない正書法のために、依然として困難である。
我々は,OCRトランス (TrOCR) と汎用視覚言語モデル (Qwen) を比較した。
TrOCRは、より一貫して正書法的忠実性を維持するが、カスケードエラー伝播の傾向が強い。
論文 参考訳(メタデータ) (2026-02-16T07:17:52Z) - Low-Resource Heuristics for Bahnaric Optical Character Recognition Improvement [3.2537431443459255]
ベトナム、カンボジア、ラオスで話されている少数言語であるBahnarは、限られた研究とデータ可用性のため、重要な保存上の課題に直面している。
本研究は,光学文字認識(OCR)技術を用いて,バーナー語文書の正確なデジタル化の必要性に対処する。
本稿では,高度なテーブルと非テーブル検出技術と確率に基づく後処理を組み合わせた総合的なアプローチを提案し,認識精度を向上させる。
論文 参考訳(メタデータ) (2026-01-06T12:22:03Z) - Robustness of Structured Data Extraction from Perspectively Distorted Documents [0.0]
現実の文書画像は通常、平面上で回転するだけでなく、視点的に歪んでいる。
本研究では, 現状技術モデルGemini-1.5-proのデータ抽出精度に対する摂動の影響について検討した。
論文 参考訳(メタデータ) (2025-11-18T07:54:21Z) - Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models [10.230967860299504]
本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
論文 参考訳(メタデータ) (2025-10-26T23:19:28Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Exposing Image Splicing Traces in Scientific Publications via Uncertainty-guided Refinement [30.698359275889363]
画像操作の疑いのある科学出版物の急増は、多くの撤回につながった。
画像スプライシング検出は、参照画像の欠如と典型的には小さな改ざんされた領域のため、より困難である。
本稿では,破壊要因の影響を軽減するために,不確実性誘導型リファインメントネットワーク(URN)を提案する。
論文 参考訳(メタデータ) (2023-09-28T12:36:12Z) - What can we learn about a generated image corrupting its latent
representation? [57.1841740328509]
GANのボトルネックにおける潜在表現に基づいて画像品質を予測できるという仮説を考察する。
遅延表現を雑音で破壊し、複数の出力を生成することでこれを実現できる。
論文 参考訳(メタデータ) (2022-10-12T14:40:32Z) - Learning to Identify Drilling Defects in Turbine Blades with Single
Stage Detectors [15.842163335920954]
タービンブレードのX線画像における網膜ドリル欠陥に基づくモデルを提案する。
このアプリケーションは、欠陥が非常に小さく、一般的に使用されるアンカーサイズによって捉えられにくい画像解像度のため、難しい。
このモデルを3ドルのクロスバリデーションで検証し,欠陥のある画像の同定に極めて高い精度を示す。
論文 参考訳(メタデータ) (2022-08-08T18:44:51Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。