論文の概要: Fused Text Recogniser and Deep Embeddings Improve Word Recognition and
Retrieval
- arxiv url: http://arxiv.org/abs/2007.00166v1
- Date: Wed, 1 Jul 2020 00:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:11:11.104379
- Title: Fused Text Recogniser and Deep Embeddings Improve Word Recognition and
Retrieval
- Title(参考訳): テキスト認識と深層埋め込みによる単語認識と検索の改善
- Authors: Siddhant Bansal, Praveen Krishnan, C.V. Jawahar
- Abstract要約: 我々は、単語全体から派生した深い埋め込み表現と、テキスト認識器の雑音出力を融合する。
単語認識率を1.4、検索率を11.13改善した。
- 参考スコア(独自算出の注目度): 26.606946401967804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognition and retrieval of textual content from the large document
collections have been a powerful use case for the document image analysis
community. Often the word is the basic unit for recognition as well as
retrieval. Systems that rely only on the text recogniser (OCR) output are not
robust enough in many situations, especially when the word recognition rates
are poor, as in the case of historic documents or digital libraries. An
alternative has been word spotting based methods that retrieve/match words
based on a holistic representation of the word. In this paper, we fuse the
noisy output of text recogniser with a deep embeddings representation derived
out of the entire word. We use average and max fusion for improving the ranked
results in the case of retrieval. We validate our methods on a collection of
Hindi documents. We improve word recognition rate by 1.4 and retrieval by 11.13
in the mAP.
- Abstract(参考訳): 大規模な文書コレクションからのテキストコンテンツの認識と検索は、文書画像分析コミュニティにとって強力なユースケースである。
しばしば、単語は認識と検索の基本的な単位である。
テキスト認識器(OCR)出力のみに依存するシステムは、歴史的文書やデジタル図書館のように、単語認識率が低い場合など、多くの状況において十分に堅牢ではない。
別の方法として、単語の全体的表現に基づいて単語を検索・マッチする単語スポッティング法がある。
本稿では,テキスト認識器のノイズ出力を,単語全体から派生した深い埋め込み表現と融合する。
検索の場合のランク付け結果を改善するために,平均値と最大値の融合を用いる。
我々はヒンディー語の文書のコレクションでその方法を検証する。
単語認識率を1.4、検索率を11.13改善した。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - Asking questions on handwritten document collections [35.85762649504866]
本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なQAやVQA(Visual Question Answering)とは違い,回答は短いテキストである。
我々は,手書き文書や,堅牢なテキスト認識が困難な歴史的コレクションに,認識自由なアプローチが適していると主張している。
論文 参考訳(メタデータ) (2021-10-02T02:40:40Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。