論文の概要: End-to-End Page-Level Assessment of Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2301.05935v2
- Date: Sun, 21 May 2023 07:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:39:22.578528
- Title: End-to-End Page-Level Assessment of Handwritten Text Recognition
- Title(参考訳): 手書き文字認識におけるエンドツーエンドページレベル評価
- Authors: Enrique Vidal, Alejandro H. Toselli, Antonio R\'ios-Vila, Jorge
Calvo-Zaragoza
- Abstract要約: HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
- 参考スコア(独自算出の注目度): 69.55992406968495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evaluation of Handwritten Text Recognition (HTR) systems has
traditionally used metrics based on the edit distance between HTR and ground
truth (GT) transcripts, at both the character and word levels. This is very
adequate when the experimental protocol assumes that both GT and HTR text lines
are the same, which allows edit distances to be independently computed to each
given line. Driven by recent advances in pattern recognition, HTR systems
increasingly face the end-to-end page-level transcription of a document, where
the precision of locating the different text lines and their corresponding
reading order (RO) play a key role. In such a case, the standard metrics do not
take into account the inconsistencies that might appear. In this paper, the
problem of evaluating HTR systems at the page level is introduced in detail. We
analyse the convenience of using a two-fold evaluation, where the transcription
accuracy and the RO goodness are considered separately. Different alternatives
are proposed, analysed and empirically compared both through partially
simulated and through real, full end-to-end experiments. Results support the
validity of the proposed two-fold evaluation approach. An important conclusion
is that such an evaluation can be adequately achieved by just two simple and
well-known metrics: the Word Error Rate (WER), that takes transcription
sequentiality into account, and the here re-formulated Bag of Words Word Error
Rate (bWER), that ignores order. While the latter directly and very accurately
assess intrinsic word recognition errors, the difference between both metrics
gracefully correlates with the Normalised Spearman's Foot Rule Distance (NSFD),
a metric which explicitly measures RO errors associated with layout analysis
flaws.
- Abstract(参考訳): 手書き文字認識(HTR)システムの評価は、伝統的に文字レベルと単語レベルの両方において、HTRと接地真理(GT)文字の編集距離に基づいてメトリクスを使用してきた。
実験プロトコルでは、gt と htr のテキスト行が同じであると仮定し、編集距離を与えられた行ごとに独立に計算できる場合、これは非常に適している。
近年のパターン認識の進歩により、HTRシステムは文書のエンドツーエンドのページレベルの書き起こしに直面し、異なるテキスト行と対応する読み込み順序(RO)を特定する精度が重要な役割を担っている。
そのような場合、標準メトリクスは、現れる可能性のある矛盾を考慮に入れない。
本稿では,ページレベルでのhtrシステム評価の問題点を詳細に紹介する。
我々は、転写精度とROの良さを別々に考慮した2次元評価の利便性を解析する。
異なる代替案が提案され、部分的にシミュレートされた実験と完全なエンドツーエンドの実験の両方を通して分析され、実証的に比較された。
結果は,提案した2次元評価手法の有効性を支持する。
重要な結論は、このような評価は、文字の逐次性を考慮した単語誤り率(wer)と、順序を無視する単語誤り率(bwer)という2つの単純かつよく知られた指標だけで適切に達成できるということである。
後者は本質的単語認識誤りを直接的かつ極めて正確に評価するが、両者の違いは、レイアウト分析の欠陥に関連するroエラーを明示的に測定する正規化スピアマンのフットルール距離(nsfd)と優雅に相関する。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Aligning Speakers: Evaluating and Visualizing Text-based Diarization
Using Efficient Multiple Sequence Alignment (Extended Version) [21.325463387256807]
テキストベースのDiarization Error RateとDiarization F1という2つの新しい指標が提案されている。
私たちのメトリクスは、既存のものと比較して多くの種類のエラーを含んでおり、話者ダイアリゼーションにおいてより包括的な分析を可能にします。
論文 参考訳(メタデータ) (2023-09-14T12:43:26Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - BlonD: An Automatic Evaluation Metric for Document-level
MachineTranslation [47.691277066346665]
文書レベルの機械翻訳評価のための自動メトリクスBlonDを提案する。
BlonDは、チェックポイントフレーズやタグのリコールと距離を計算することで、談話のコヒーレンスを考慮に入れている。
論文 参考訳(メタデータ) (2021-03-22T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。