論文の概要: Improving Word Recognition using Multiple Hypotheses and Deep Embeddings
- arxiv url: http://arxiv.org/abs/2010.14411v1
- Date: Tue, 27 Oct 2020 16:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:24:44.446433
- Title: Improving Word Recognition using Multiple Hypotheses and Deep Embeddings
- Title(参考訳): 複数仮説と深層埋め込みを用いた単語認識の改善
- Authors: Siddhant Bansal, Praveen Krishnan, C.V. Jawahar
- Abstract要約: 単語画像埋め込みを用いた単語認識精度の向上のための新しい手法を提案する。
我々の融合方式は、訓練された単語画像埋め込みネットワークから得られた単語画像とテキスト埋め込みを利用して認識プロセスを改善する。
本手法は単語認識精度の点で約10%の絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 26.606946401967804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel scheme for improving the word recognition accuracy using
word image embeddings. We use a trained text recognizer, which can predict
multiple text hypothesis for a given word image. Our fusion scheme improves the
recognition process by utilizing the word image and text embeddings obtained
from a trained word image embedding network. We propose EmbedNet, which is
trained using a triplet loss for learning a suitable embedding space where the
embedding of the word image lies closer to the embedding of the corresponding
text transcription. The updated embedding space thus helps in choosing the
correct prediction with higher confidence. To further improve the accuracy, we
propose a plug-and-play module called Confidence based Accuracy Booster (CAB).
The CAB module takes in the confidence scores obtained from the text recognizer
and Euclidean distances between the embeddings to generate an updated distance
vector. The updated distance vector has lower distance values for the correct
words and higher distance values for the incorrect words. We rigorously
evaluate our proposed method systematically on a collection of books in the
Hindi language. Our method achieves an absolute improvement of around 10
percent in terms of word recognition accuracy.
- Abstract(参考訳): 本稿では,単語画像埋め込みを用いた単語認識精度の向上手法を提案する。
訓練されたテキスト認識器を使用し、与えられた単語画像に対して複数のテキスト仮説を予測できる。
我々の融合方式は、訓練された単語画像埋め込みネットワークから得られた単語画像とテキスト埋め込みを利用して認識プロセスを改善する。
本研究では,単語画像の埋め込みが対応するテキストの埋め込みに近い適切な埋め込み空間を学習するために,三重項損失を用いてトレーニングを行うEmbedNetを提案する。
更新された埋め込み空間は、高い信頼性で正しい予測を選択するのに役立つ。
精度をさらに向上するために,信頼性ベースの精度ブースタ (CAB) と呼ばれるプラグアンドプレイモジュールを提案する。
CABモジュールは、テキスト認識器から得られた信頼スコアと、埋め込み間のユークリッド距離を取り込み、更新された距離ベクトルを生成する。
更新された距離ベクトルは、正しい単語に対する低い距離値と間違った単語に対する高い距離値とを有する。
我々は,ヒンディー語の本集に基づいて,提案手法を体系的に評価した。
本手法は, 単語認識精度の面で10%程度の絶対的改善を実現する。
関連論文リスト
- InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions [5.50485371072671]
本手法は,ラベルの修正による中間CTC予測に代えて,誤認識対象キーワードの認識精度を向上させる。
日本語を用いた実験により,未知語に対するF1スコアの改善が得られた。
論文 参考訳(メタデータ) (2024-06-21T06:25:10Z) - JSTR: Judgment Improves Scene Text Recognition [0.0]
本稿では,画像とテキストが一致しているかを判断することで,シーンテキスト認識タスクの精度を向上させる手法を提案する。
この方法は、モデルが誤認識しそうなデータに対して明示的なフィードバックを提供することで、テキスト認識の精度を高める。
論文 参考訳(メタデータ) (2024-04-09T02:55:12Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - Utilizing Language-Image Pretraining for Efficient and Robust Bilingual
Word Alignment [27.405171616881322]
We developed a novel UWT method called Word Alignment using Language- Image Pretraining (WALIP)。
WALIPは、CLIPモデルが提供する画像とテキストの共有埋め込み空間を介して視覚的観察を使用する。
実験の結果,WALIPは言語対のバイリンガル単語アライメントの最先端性能を改善していることがわかった。
論文 参考訳(メタデータ) (2022-05-23T20:29:26Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。