論文の概要: OCR quality affects perceived usefulness of historical newspaper
clippings -- a user study
- arxiv url: http://arxiv.org/abs/2203.03557v1
- Date: Fri, 4 Mar 2022 11:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 12:00:49.275187
- Title: OCR quality affects perceived usefulness of historical newspaper
clippings -- a user study
- Title(参考訳): OCRの品質が歴史的新聞クリッピングの有用性に影響を及ぼす-ユーザー調査
- Authors: Kimmo Kettunen, Heikki Keskustalo, Sanna Kumpulainen, Tuula
P\"a\"akk\"onen and Juha Rautiainen
- Abstract要約: ユーザ指向情報検索設定において,光学文字認識(OCR)品質の影響について検討した。
本研究の主な成果は,光学的文字認識能力の向上が歴史的新聞記事の有用性を著しく左右することである。
- 参考スコア(独自算出の注目度): 0.6299766708197884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effects of Optical Character Recognition (OCR) quality on historical
information retrieval have so far been studied in data-oriented scenarios
regarding the effectiveness of retrieval results. Such studies have either
focused on the effects of artificially degraded OCR quality (see, e.g., [1-2])
or utilized test collections containing texts based on authentic low quality
OCR data (see, e.g., [3]). In this paper the effects of OCR quality are studied
in a user-oriented information retrieval setting. Thirty-two users evaluated
subjectively query results of six topics each (out of 30 topics) based on
pre-formulated queries using a simulated work task setting. To the best of our
knowledge our simulated work task experiment is the first one showing
empirically that users' subjective relevance assessments of retrieved documents
are affected by a change in the quality of optically read text. Users of
historical newspaper collections have so far commented effects of OCR'ed data
quality mainly in impressionistic ways, and controlled user environments for
studying effects of OCR quality on users' relevance assessments of the
retrieval results have so far been missing. To remedy this The National Library
of Finland (NLF) set up an experimental query environment for the contents of
one Finnish historical newspaper, Uusi Suometar 1869-1918, to be able to
compare users' evaluation of search results of two different OCR qualities for
digitized newspaper articles. The query interface was able to present the same
underlying document for the user based on two alternatives: either based on the
lower OCR quality, or based on the higher OCR quality, and the choice was
randomized. The users did not know about quality differences in the article
texts they evaluated. The main result of the study is that improved optical
character recognition quality affects perceived usefulness of historical
newspaper articles significantly. The mean average evaluation score for the
improved OCR results was 7.94% higher than the mean average evaluation score of
the old OCR results.
- Abstract(参考訳): 歴史的情報検索における光学文字認識(OCR)の品質の影響を,検索結果の有効性に関するデータ指向のシナリオで検討した。
このような研究は、人工的に劣化したOCRの品質(例: [1-2])や、真に低品質なOCRデータに基づくテキストを含むテストコレクション(例: [3])の影響に焦点を当てている。
本稿では,ユーザ指向情報検索環境におけるOCR品質の影響について検討する。
シミュレーション作業タスク設定を用いて,前処理クエリに基づいて6つのトピック(30トピック中)の主観的なクエリ結果を評価した。
我々の知る限り、我々の模擬作業実験は、ユーザが検索した文書の主観的関連性評価が、光学的に読まれたテキストの品質の変化によって影響を受けることを実証的に示す最初のものである。
歴史的新聞コレクションの利用者は,ocrのデータ品質が印象主義的な効果を主に有しており,ocr品質が検索結果の妥当性評価に与える影響を調べるためのユーザ環境は,これまで失われてきた。
フィンランド国立図書館(NLF)は、フィンランドの歴史新聞Uusi Suometar 1869-1918のコンテンツに対して、デジタル化された新聞記事の2つの異なるOCR品質の検索結果に対するユーザによる評価を比較するために、実験的なクエリ環境を構築した。
クエリインターフェースは,ocr品質の低いもの,あるいはocr品質の高いもの,という2つの代替案に基づいて,ユーザに対して同じ基礎となるドキュメントを表示することが可能で,選択はランダム化された。
ユーザは、評価した記事のテキストの品質の違いを知らなかった。
本研究の主な成果は,光学的文字認識精度の向上が歴史的新聞記事の有用性に有意な影響を与えることにある。
改善OCR結果の平均評価スコアは,旧OCR結果の平均評価スコアよりも7.94%高かった。
関連論文リスト
- QuRating: Selecting High-Quality Data for Training Language Models [69.55617417985809]
本稿では,人間が直感的に知覚するテキストの抽象的品質をキャプチャする事前学習データを選択するQuRatingを紹介する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学ぶためにQuRaterモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Impact of Face Image Quality Estimation on Presentation Attack Detection [10.832111751830272]
本研究では, 品質評価手法がボナフッ化物および攻撃試料のろ過に及ぼす影響について検討した。
その結果,低品質サンプルを除去することでトレーニングデータセットの20%を削減し,BPCERを3%改善できることが判明した。
論文 参考訳(メタデータ) (2022-09-30T14:23:47Z) - Optical character recognition quality affects perceived usefulness of
historical newspaper clippings [0.6299766708197884]
フィンランドの新聞Uusi Suometar 1869-1918の記事を検索したユーザーは32人だった。
記事検索データベースは,各記事の2つのバージョンがあり,その品質は光学的文字認識が異なる。
論文 参考訳(メタデータ) (2022-06-01T10:07:50Z) - Detection Masking for Improved OCR on Noisy Documents [8.137198664755596]
本稿では,文書上でのOCRの品質向上を目的として,マスキングシステムによる検出ネットワークの改良について述べる。
本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。
論文 参考訳(メタデータ) (2022-05-17T11:59:18Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Critical analysis on the reproducibility of visual quality assessment
using deep features [6.746400031322727]
教師付き機械学習モデルのトレーニングに使用されるデータは、一般的に独立したトレーニング、検証、テストセットに分割される。
本稿では,非参照画像と映像品質評価文献に複雑なデータ漏洩事件が発生したことを示す。
論文 参考訳(メタデータ) (2020-09-10T09:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。