論文の概要: A tailored Handwritten-Text-Recognition System for Medieval Latin
- arxiv url: http://arxiv.org/abs/2308.09368v1
- Date: Fri, 18 Aug 2023 08:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:07:30.985128
- Title: A tailored Handwritten-Text-Recognition System for Medieval Latin
- Title(参考訳): 中世ラテン語の手書き文字認識システム
- Authors: Philipp Koch and Gilary Vera Nu\~nez and Esteban Garces Arias and
Christian Heumann and Matthias Sch\"offel and Alexander H\"aberlin and
Matthias A{\ss}enmacher
- Abstract要約: バイエルン科学人文科学アカデミーは中世ラテン語辞典のデジタル化を目指している。
この辞書は、低資源言語である中世ラテン語のレムマを参照するレコードカードを含んでいる。
我々は中世ラテン語の辞書に合わせたエンドツーエンドのパイプラインを導入し、補題の検索、抽出、翻訳を行う。
- 参考スコア(独自算出の注目度): 40.27709775411759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Bavarian Academy of Sciences and Humanities aims to digitize its Medieval
Latin Dictionary. This dictionary entails record cards referring to lemmas in
medieval Latin, a low-resource language. A crucial step of the digitization
process is the Handwritten Text Recognition (HTR) of the handwritten lemmas
found on these record cards. In our work, we introduce an end-to-end pipeline,
tailored to the medieval Latin dictionary, for locating, extracting, and
transcribing the lemmas. We employ two state-of-the-art (SOTA) image
segmentation models to prepare the initial data set for the HTR task.
Furthermore, we experiment with different transformer-based models and conduct
a set of experiments to explore the capabilities of different combinations of
vision encoders with a GPT-2 decoder. Additionally, we also apply extensive
data augmentation resulting in a highly competitive model. The best-performing
setup achieved a Character Error Rate (CER) of 0.015, which is even superior to
the commercial Google Cloud Vision model, and shows more stable performance.
- Abstract(参考訳): バイエルン科学人文科学アカデミーは中世ラテン語辞典のデジタル化を目指している。
この辞書は、低資源言語である中世ラテン語のレムマを指すレコードカードを含んでいる。
デジタル化プロセスの重要なステップは、これらのレコードカードにある手書きの補題の手書きテキスト認識(htr)である。
本研究では,中世ラテン語辞典に合わせたエンドツーエンドのパイプラインを導入し,補題の検索,抽出,書き起こしを行う。
我々は、HTRタスクの初期データセットを作成するために、2つの最先端(SOTA)イメージセグメンテーションモデルを用いる。
さらに,様々なトランスフォーマモデルを用いて実験を行い,gpt-2デコーダを用いた視覚エンコーダの異なる組み合わせの能力について検討する。
さらに、競争力の高いモデルをもたらす広範なデータ拡張も適用します。
最高のパフォーマンス設定は、商用のGoogle Cloud Visionモデルよりも優れ、より安定したパフォーマンスを示す0.015のキャラクタエラーレート(CER)を達成した。
関連論文リスト
- PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。
第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。
最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文 参考訳(メタデータ) (2025-02-10T05:50:26Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Fuzzy Fingerprinting Transformer Language-Models for Emotion Recognition
in Conversations [0.7874708385247353]
会話における感情認識(ERC)を実現するための2つのアプローチを組み合わせることを提案する。
我々は,事前に訓練したRoBERTaに発話と以前の会話のターンを供給し,文脈的埋め込み発話表現を得る。
広く使われているDailyDialog ERCベンチマークデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-08T12:26:01Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - JOIST: A Joint Speech and Text Streaming Model For ASR [63.15848310748753]
JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。
JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセットのWERを4-14%改善することがわかった。
論文 参考訳(メタデータ) (2022-10-13T20:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。