論文の概要: An Evaluation of OCR on Egocentric Data
- arxiv url: http://arxiv.org/abs/2206.05496v1
- Date: Sat, 11 Jun 2022 10:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 09:55:57.719158
- Title: An Evaluation of OCR on Egocentric Data
- Title(参考訳): 自己中心型データを用いたOCRの評価
- Authors: Valentin Popescu, Dima Damen, Toby Perrett
- Abstract要約: 本稿では,エゴセントリックデータに対する最先端OCR手法の評価を行う。
既存のOCR手法は、処理対象に対して頻繁に観察される回転テキストと競合することを示す。
我々は、正規化編集距離誤差を半減する事前学習されたOCRモデルに適用可能な、シンプルな回転・合流手順を提案する。
- 参考スコア(独自算出の注目度): 30.637021477342035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we evaluate state-of-the-art OCR methods on Egocentric data.
We annotate text in EPIC-KITCHENS images, and demonstrate that existing OCR
methods struggle with rotated text, which is frequently observed on objects
being handled. We introduce a simple rotate-and-merge procedure which can be
applied to pre-trained OCR models that halves the normalized edit distance
error. This suggests that future OCR attempts should incorporate rotation into
model design and training procedures.
- Abstract(参考訳): 本稿では,エゴセントリックデータに対する最先端OCR手法の評価を行う。
我々はEPIC-KITCHENS画像中のテキストに注釈を付け、既存のOCRメソッドがローテーションされたテキストと競合することを示す。
我々は、正規化編集距離誤差を半減する事前学習されたOCRモデルに適用可能な、シンプルな回転・合流手順を提案する。
これは、将来のOCRはモデル設計と訓練手順に回転を組み込むべきであることを示唆している。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Enhancing OCR Performance through Post-OCR Models: Adopting Glyph
Embedding for Improved Correction [0.0]
この手法の斬新さは、CharBERTと独自の埋め込み技術を用いてOCR出力を埋め込み、文字の視覚的特徴を捉えることである。
以上の結果から,OCR後補正はOCRモデルの欠陥に効果的に対処し,グリフ埋め込みにより優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2023-08-29T12:41:50Z) - Toward Zero-shot Character Recognition: A Gold Standard Dataset with
Radical-level Annotations [5.761679637905164]
本稿では,ラジカルレベルのアノテーションと文字レベルのアノテーションの両方を含む古代中国語の文字画像データセットを構築する。
ACCIDの適応性を高めるため,トレーニングサンプルを増強するスプライシングベースの合成文字アルゴリズムを提案し,画像の画質向上のために画像デノナイズ手法を適用した。
論文 参考訳(メタデータ) (2023-08-01T16:41:30Z) - Bayesian Inverse Contextual Reasoning for Heterogeneous Semantics-Native
Communication [47.9462619619438]
エージェントが同じコミュニケーションコンテキストを共有しない場合、文脈推論の有効性が損なわれる。
本稿では,2つのベイズ推論手法を用いて,SNCにおけるCRの逆問題を解決するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-06-10T10:10:55Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - iOCR: Informed Optical Character Recognition for Election Ballot Tallies [13.343515845758398]
iOCR は従来の OCR による投票集計の誤りを修正するスペル補正アルゴリズムを用いて開発された。
その結果,iOCR法は従来のOCR法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T13:50:13Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。