論文の概要: A tailored Handwritten-Text-Recognition System for Medieval Latin
- arxiv url: http://arxiv.org/abs/2308.09368v1
- Date: Fri, 18 Aug 2023 08:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:07:30.985128
- Title: A tailored Handwritten-Text-Recognition System for Medieval Latin
- Title(参考訳): 中世ラテン語の手書き文字認識システム
- Authors: Philipp Koch and Gilary Vera Nu\~nez and Esteban Garces Arias and
Christian Heumann and Matthias Sch\"offel and Alexander H\"aberlin and
Matthias A{\ss}enmacher
- Abstract要約: バイエルン科学人文科学アカデミーは中世ラテン語辞典のデジタル化を目指している。
この辞書は、低資源言語である中世ラテン語のレムマを参照するレコードカードを含んでいる。
我々は中世ラテン語の辞書に合わせたエンドツーエンドのパイプラインを導入し、補題の検索、抽出、翻訳を行う。
- 参考スコア(独自算出の注目度): 40.27709775411759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Bavarian Academy of Sciences and Humanities aims to digitize its Medieval
Latin Dictionary. This dictionary entails record cards referring to lemmas in
medieval Latin, a low-resource language. A crucial step of the digitization
process is the Handwritten Text Recognition (HTR) of the handwritten lemmas
found on these record cards. In our work, we introduce an end-to-end pipeline,
tailored to the medieval Latin dictionary, for locating, extracting, and
transcribing the lemmas. We employ two state-of-the-art (SOTA) image
segmentation models to prepare the initial data set for the HTR task.
Furthermore, we experiment with different transformer-based models and conduct
a set of experiments to explore the capabilities of different combinations of
vision encoders with a GPT-2 decoder. Additionally, we also apply extensive
data augmentation resulting in a highly competitive model. The best-performing
setup achieved a Character Error Rate (CER) of 0.015, which is even superior to
the commercial Google Cloud Vision model, and shows more stable performance.
- Abstract(参考訳): バイエルン科学人文科学アカデミーは中世ラテン語辞典のデジタル化を目指している。
この辞書は、低資源言語である中世ラテン語のレムマを指すレコードカードを含んでいる。
デジタル化プロセスの重要なステップは、これらのレコードカードにある手書きの補題の手書きテキスト認識(htr)である。
本研究では,中世ラテン語辞典に合わせたエンドツーエンドのパイプラインを導入し,補題の検索,抽出,書き起こしを行う。
我々は、HTRタスクの初期データセットを作成するために、2つの最先端(SOTA)イメージセグメンテーションモデルを用いる。
さらに,様々なトランスフォーマモデルを用いて実験を行い,gpt-2デコーダを用いた視覚エンコーダの異なる組み合わせの能力について検討する。
さらに、競争力の高いモデルをもたらす広範なデータ拡張も適用します。
最高のパフォーマンス設定は、商用のGoogle Cloud Visionモデルよりも優れ、より安定したパフォーマンスを示す0.015のキャラクタエラーレート(CER)を達成した。
関連論文リスト
- Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Fingerspelling PoseNet: Enhancing Fingerspelling Translation with
Pose-Based Transformer Models [2.348041867134616]
我々は、野生の動画を用いた米手話翻訳の課題に対処する。
我々はより正確な手振り推定の進歩を活用し、トランスフォーマーに基づくエンコーダ・デコーダモデルを利用した新しいアーキテクチャを提案する。
本研究は,手話翻訳における指先認識の進歩の可能性とアプローチの有効性を明らかにするものである。
論文 参考訳(メタデータ) (2023-11-20T19:11:16Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Fuzzy Fingerprinting Transformer Language-Models for Emotion Recognition
in Conversations [0.7874708385247353]
会話における感情認識(ERC)を実現するための2つのアプローチを組み合わせることを提案する。
我々は,事前に訓練したRoBERTaに発話と以前の会話のターンを供給し,文脈的埋め込み発話表現を得る。
広く使われているDailyDialog ERCベンチマークデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-08T12:26:01Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - JOIST: A Joint Speech and Text Streaming Model For ASR [63.15848310748753]
JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。
JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセットのWERを4-14%改善することがわかった。
論文 参考訳(メタデータ) (2022-10-13T20:59:22Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。