論文の概要: CLEval: Character-Level Evaluation for Text Detection and Recognition
Tasks
- arxiv url: http://arxiv.org/abs/2006.06244v1
- Date: Thu, 11 Jun 2020 08:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:59:56.123213
- Title: CLEval: Character-Level Evaluation for Text Detection and Recognition
Tasks
- Title(参考訳): CLEval:テキスト検出・認識タスクのための文字レベル評価
- Authors: Youngmin Baek, Daehyun Nam, Sungrae Park, Junyeop Lee, Seung Shin,
Jeonghun Baek, Chae Young Lee, Hwalsuk Lee
- Abstract要約: 既存の評価指標は、テキストの検出と認識方法の公正で信頼性の高い比較を提供していない。
文字がテキストの重要な要素であるという事実に基づいて,文字レベル評価尺度(CLEval)を提案する。
CLEvalは、検出と認識と、各モジュールに対するエンドパフォーマンスの観点からの個々の評価からなる、エンド・ツー・エンドの結果のきめ細かい評価を提供する。
- 参考スコア(独自算出の注目度): 18.25936871944743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of text detection and recognition methods,
existing evaluation metrics fail to provide a fair and reliable comparison
among those methods. In addition, there exists no end-to-end evaluation metric
that takes characteristics of OCR tasks into account. Previous end-to-end
metric contains cascaded errors from the binary scoring process applied in both
detection and recognition tasks. Ignoring partially correct results raises a
gap between quantitative and qualitative analysis, and prevents fine-grained
assessment. Based on the fact that character is a key element of text, we
hereby propose a Character-Level Evaluation metric (CLEval). In CLEval, the
\textit{instance matching} process handles split and merge detection cases, and
the \textit{scoring process} conducts character-level evaluation. By
aggregating character-level scores, the CLEval metric provides a fine-grained
evaluation of end-to-end results composed of the detection and recognition as
well as individual evaluations for each module from the end-performance
perspective. We believe that our metrics can play a key role in developing and
analyzing state-of-the-art text detection and recognition methods. The
evaluation code is publicly available at https://github.com/clovaai/CLEval.
- Abstract(参考訳): 最近のテキスト検出および認識手法の成功にもかかわらず、既存の評価指標は、これらの方法間で公正かつ信頼性の高い比較を提供していない。
加えて、OCRタスクの特徴を考慮に入れたエンドツーエンド評価指標は存在しない。
従来のエンドツーエンドメトリックには、検出と認識の両方に適用されるバイナリスコアリングプロセスのカスケードエラーが含まれている。
部分的に正しい結果を無視することは、定量分析と定性的分析のギャップを生じさせ、きめ細かい評価を防ぐ。
本稿では,文字がテキストの重要な要素であるという事実に基づき,文字レベル評価尺度(CLEval)を提案する。
CLEvalでは、 \textit{instance matching} プロセスが分割およびマージ検出を処理し、 \textit{scoring process} が文字レベルの評価を行う。
文字レベルのスコアを集約することにより、CLEvalメトリックは、検出と認識からなるエンドツーエンド結果のきめ細かい評価と、エンドパフォーマンスの観点から各モジュールに対する個別評価を提供する。
我々のメトリクスは、最先端のテキスト検出・認識手法の開発と分析において重要な役割を果たすと信じている。
評価コードはhttps://github.com/clovaai/CLEval.comで公開されている。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。
textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文 参考訳(メタデータ) (2024-07-19T17:14:16Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Perception Score, A Learned Metric for Open-ended Text Generation
Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。
本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文 参考訳(メタデータ) (2020-08-07T10:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。