論文の概要: OCR quality affects perceived usefulness of historical newspaper
clippings -- a user study
- arxiv url: http://arxiv.org/abs/2203.03557v1
- Date: Fri, 4 Mar 2022 11:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 12:00:49.275187
- Title: OCR quality affects perceived usefulness of historical newspaper
clippings -- a user study
- Title(参考訳): OCRの品質が歴史的新聞クリッピングの有用性に影響を及ぼす-ユーザー調査
- Authors: Kimmo Kettunen, Heikki Keskustalo, Sanna Kumpulainen, Tuula
P\"a\"akk\"onen and Juha Rautiainen
- Abstract要約: ユーザ指向情報検索設定において,光学文字認識(OCR)品質の影響について検討した。
本研究の主な成果は,光学的文字認識能力の向上が歴史的新聞記事の有用性を著しく左右することである。
- 参考スコア(独自算出の注目度): 0.6299766708197884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effects of Optical Character Recognition (OCR) quality on historical
information retrieval have so far been studied in data-oriented scenarios
regarding the effectiveness of retrieval results. Such studies have either
focused on the effects of artificially degraded OCR quality (see, e.g., [1-2])
or utilized test collections containing texts based on authentic low quality
OCR data (see, e.g., [3]). In this paper the effects of OCR quality are studied
in a user-oriented information retrieval setting. Thirty-two users evaluated
subjectively query results of six topics each (out of 30 topics) based on
pre-formulated queries using a simulated work task setting. To the best of our
knowledge our simulated work task experiment is the first one showing
empirically that users' subjective relevance assessments of retrieved documents
are affected by a change in the quality of optically read text. Users of
historical newspaper collections have so far commented effects of OCR'ed data
quality mainly in impressionistic ways, and controlled user environments for
studying effects of OCR quality on users' relevance assessments of the
retrieval results have so far been missing. To remedy this The National Library
of Finland (NLF) set up an experimental query environment for the contents of
one Finnish historical newspaper, Uusi Suometar 1869-1918, to be able to
compare users' evaluation of search results of two different OCR qualities for
digitized newspaper articles. The query interface was able to present the same
underlying document for the user based on two alternatives: either based on the
lower OCR quality, or based on the higher OCR quality, and the choice was
randomized. The users did not know about quality differences in the article
texts they evaluated. The main result of the study is that improved optical
character recognition quality affects perceived usefulness of historical
newspaper articles significantly. The mean average evaluation score for the
improved OCR results was 7.94% higher than the mean average evaluation score of
the old OCR results.
- Abstract(参考訳): 歴史的情報検索における光学文字認識(OCR)の品質の影響を,検索結果の有効性に関するデータ指向のシナリオで検討した。
このような研究は、人工的に劣化したOCRの品質(例: [1-2])や、真に低品質なOCRデータに基づくテキストを含むテストコレクション(例: [3])の影響に焦点を当てている。
本稿では,ユーザ指向情報検索環境におけるOCR品質の影響について検討する。
シミュレーション作業タスク設定を用いて,前処理クエリに基づいて6つのトピック(30トピック中)の主観的なクエリ結果を評価した。
我々の知る限り、我々の模擬作業実験は、ユーザが検索した文書の主観的関連性評価が、光学的に読まれたテキストの品質の変化によって影響を受けることを実証的に示す最初のものである。
歴史的新聞コレクションの利用者は,ocrのデータ品質が印象主義的な効果を主に有しており,ocr品質が検索結果の妥当性評価に与える影響を調べるためのユーザ環境は,これまで失われてきた。
フィンランド国立図書館(NLF)は、フィンランドの歴史新聞Uusi Suometar 1869-1918のコンテンツに対して、デジタル化された新聞記事の2つの異なるOCR品質の検索結果に対するユーザによる評価を比較するために、実験的なクエリ環境を構築した。
クエリインターフェースは,ocr品質の低いもの,あるいはocr品質の高いもの,という2つの代替案に基づいて,ユーザに対して同じ基礎となるドキュメントを表示することが可能で,選択はランダム化された。
ユーザは、評価した記事のテキストの品質の違いを知らなかった。
本研究の主な成果は,光学的文字認識精度の向上が歴史的新聞記事の有用性に有意な影響を与えることにある。
改善OCR結果の平均評価スコアは,旧OCR結果の平均評価スコアよりも7.94%高かった。
関連論文リスト
- Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。
我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文 参考訳(メタデータ) (2024-10-10T08:04:10Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Mashee at SemEval-2024 Task 8: The Impact of Samples Quality on the Performance of In-Context Learning for Machine Text Classification [0.0]
我々は,高品質試料を同定するために2乗検定を用い,低品質試料を用いて得られた試料と比較した。
これらの結果から, 高品質な試料の利用により, 評価指標のすべてに対して, 性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-05-28T12:47:43Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Optical character recognition quality affects perceived usefulness of
historical newspaper clippings [0.6299766708197884]
フィンランドの新聞Uusi Suometar 1869-1918の記事を検索したユーザーは32人だった。
記事検索データベースは,各記事の2つのバージョンがあり,その品質は光学的文字認識が異なる。
論文 参考訳(メタデータ) (2022-06-01T10:07:50Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。