論文の概要: Transformer-based HTR for Historical Documents
- arxiv url: http://arxiv.org/abs/2203.11008v1
- Date: Mon, 21 Mar 2022 14:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 20:59:57.661347
- Title: Transformer-based HTR for Historical Documents
- Title(参考訳): トランスフォーマーを用いた歴史文書用HTR
- Authors: Phillip Benjamin Str\"obel, Simon Clematide, Martin Volk, Tobias Hodel
- Abstract要約: 本稿では,TrOCRフレームワークを実世界,歴史写本に適用し,TrOCR自体が強力なモデルであることを示す。
我々は、TrOCRをSOTA HTRフレームワーク(Transkribus)と比較し、そのようなシステムに勝てることを示す。
- 参考スコア(独自算出の注目度): 2.905751301655124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We apply the TrOCR framework to real-world, historical manuscripts and show
that TrOCR per se is a strong model, ideal for transfer learning. TrOCR has
been trained on English only, but it can adapt to other languages that use the
Latin alphabet fairly easily and with little training material. We compare
TrOCR against a SOTA HTR framework (Transkribus) and show that it can beat such
systems. This finding is essential since Transkribus performs best when it has
access to baseline information, which is not needed at all to fine-tune TrOCR.
- Abstract(参考訳): 我々は,TrOCRフレームワークを実世界,歴史写本に適用し,TrOCRは強いモデルであり,伝達学習に理想的であることを示す。
trocrは英語のみで訓練されているが、ラテン語のアルファベットをかなり簡単に使う他の言語に適応できる。
我々は、TrOCRをSOTA HTRフレームワーク(Transkribus)と比較し、そのようなシステムに勝てることを示す。
この発見は、transkribusがベースライン情報にアクセスする際に最善の性能を発揮するために必要であり、trocrを微調整する必要はない。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Transferring General Multimodal Pretrained Models to Text Recognition [46.33867696799362]
我々は文字認識を画像キャプションとして再キャストし、統合された視覚言語事前学習モデルを直接エンドタスクに転送する。
OCRパイプラインをOFA-OCRで構築し、製品レベルのAPIと競合する性能を実現することを実証する。
論文 参考訳(メタデータ) (2022-12-19T08:30:42Z) - OCR Improves Machine Translation for Low-Resource Languages [10.010595434359647]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるtextscOCR4MTを導入し,公開する。
我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。
次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文 参考訳(メタデータ) (2022-02-27T02:36:45Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。