論文の概要: Optical character recognition quality affects perceived usefulness of
historical newspaper clippings
- arxiv url: http://arxiv.org/abs/2206.00369v1
- Date: Wed, 1 Jun 2022 10:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 21:42:31.307355
- Title: Optical character recognition quality affects perceived usefulness of
historical newspaper clippings
- Title(参考訳): 光学式文字認識が新聞クリップの知覚的有用性に及ぼす影響
- Authors: Kimmo Kettunen, Heikki Keskustalo, Sanna Kumpulainen, Tuula
P\"a\"akk\"onen and Juha Rautiainen
- Abstract要約: フィンランドの新聞Uusi Suometar 1869-1918の記事を検索したユーザーは32人だった。
記事検索データベースは,各記事の2つのバージョンがあり,その品質は光学的文字認識が異なる。
- 参考スコア(独自算出の注目度): 0.6299766708197884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction. We study effect of different quality optical character
recognition in interactive information retrieval with a collection of one
digitized historical Finnish newspaper. Method. This study is based on the
simulated interactive information retrieval work task model. Thirty-two users
made searches to an article collection of Finnish newspaper Uusi Suometar
1869-1918 with ca. 1.45 million auto segmented articles. Our article search
database had two versions of each article with different quality optical
character recognition. Each user performed six pre-formulated and six
self-formulated short queries and evaluated subjectively the top-10 results
using graded relevance scale of 0-3 without knowing about the optical character
recognition quality differences of the otherwise identical articles. Analysis.
Analysis of the user evaluations was performed by comparing mean averages of
evaluations scores in user sessions. Differences of query results were detected
by analysing lengths of returned articles in pre-formulated and self-formulated
queries and number of different documents retrieved overall in these two
sessions. Results. The main result of the study is that improved optical
character recognition quality affects perceived usefulness of historical
newspaper articles positively. Conclusions. We were able to show that
improvement in optical character recognition quality of documents leads to
higher mean relevance evaluation scores of query results in our historical
newspaper collection. To the best of our knowledge this simulated interactive
user-task is the first one showing empirically that users' subjective relevance
assessments are affected by a change in the quality of optically read text.
- Abstract(参考訳): はじめに。
フィンランドの新聞のデジタル化にともなう対話型情報検索における品質の異なる光学文字認識の効果について検討した。
方法。
本研究は,対話型情報検索作業タスクモデルに基づく。
フィンランドの新聞Uusi Suometar 1869-1918の記事を検索したユーザーは32人。
1億4500万件の オートセグメンテーション記事
本論文の検索データベースは, 品質の異なる2種類の文字認識機能を備えていた。
各ユーザは6つの自己形成型および6つの自己形成型短い質問を行い、同一の論文の光学的文字認識品質の違いを知らずに、0〜3の格付け関連尺度を用いて主観的にトップ10の評価を行った。
分析。
ユーザセッションにおける評価スコアの平均値を比較し,ユーザ評価の分析を行った。
質問結果の相違は、前処理および自己形式クエリにおける返却記事の長さと、これらの2つのセッション全体で検索された文書の数を分析して検出した。
結果だ
本研究の主な成果は,光学的文字認識精度の向上が新聞記事の認識有用性に正の影響を与えることにある。
結論だ
文献の光学的文字認識精度の向上が,過去の新聞コレクションにおける照会結果の平均値評価スコアの向上につながることを示すことができた。
我々の知る限り、このシミュレーションされた対話型ユーザタスクは、ユーザの主観的関連性評価が光学的読み上げテキストの品質の変化によって影響を受けることを実証的に示す最初のものである。
関連論文リスト
- Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。
我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文 参考訳(メタデータ) (2024-10-10T08:04:10Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Comprehending Lexical and Affective Ontologies in the Demographically
Diverse Spatial Social Media Discourse [0.0]
本研究の目的は、英語のスタイル、感情の伝達、ソーシャルメディアデータにおける語彙の多様性など、言語的・社会的なデコグラフィーの特徴を理解することである。
分析では,2つのグループから統計的,文法的,感情的特徴を抽出し,検討する。
両群間の言語特性の相違が明らかとなり,マクロF1スコアは約0.85となった。
論文 参考訳(メタデータ) (2023-11-12T04:23:33Z) - Chain-of-Factors Paper-Reviewer Matching [32.86512592730291]
本稿では,意味的・話題的・引用的要因を協調的に考慮した,論文レビューアマッチングのための統一モデルを提案する。
提案したChain-of-Factorsモデルの有効性を,最先端のペーパー-リビューアマッチング手法と科学的事前学習言語モデルと比較した。
論文 参考訳(メタデータ) (2023-10-23T01:29:18Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - OCR quality affects perceived usefulness of historical newspaper
clippings -- a user study [0.6299766708197884]
ユーザ指向情報検索設定において,光学文字認識(OCR)品質の影響について検討した。
本研究の主な成果は,光学的文字認識能力の向上が歴史的新聞記事の有用性を著しく左右することである。
論文 参考訳(メタデータ) (2022-03-04T11:49:54Z) - Automatic Main Character Recognition for Photographic Studies [78.88882860340797]
画像の主人公は、最初に見る人の注意を引く最も重要な人間である。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っている。
機械学習に基づく人間のポーズ推定を用いて主文字を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T18:14:45Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Cognitive Representation Learning of Self-Media Online Article Quality [24.084727302752377]
セルフメディアオンライン記事は主にユーザによって作成され、異なるテキストレベルの外観特性とマルチモーダルハイブリッド編集が特徴である。
レイアウト構造, 特徴記述, テキスト意味論と組み合わせて, 共同モデルCoQANを構築した。
また,大規模な実世界評価データセットを構築した。
論文 参考訳(メタデータ) (2020-08-13T02:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。