論文の概要: HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using
CNN-BiLSTM Network
- arxiv url: http://arxiv.org/abs/2201.00947v1
- Date: Tue, 4 Jan 2022 02:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 14:00:24.015773
- Title: HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using
CNN-BiLSTM Network
- Title(参考訳): HWRCNet: CNN-BiLSTMネットワークを用いたJPEG圧縮領域における手書き単語認識
- Authors: Mudit Goyal, Abhishek Kumar Gupta, Shiv Kumar, Karan Chatwani, Shiv
Ram Dubey, Satish Kumar Singh
- Abstract要約: JPEG圧縮領域における手書き単語認識のためのHWRCNetモデルを提案する。
提案したモデルは、畳み込みニューラルネットワーク(CNN)とBiLSTM(Bi-Directional Long Term Memory)をベースとしたリカレントニューラルネットワーク(RNN)を組み合わせたものである。
- 参考スコア(独自算出の注目度): 17.628858591402114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The handwritten word recognition from images using deep learning is an active
research area with promising performance. It practical scenario, it might be
required to process the handwritten images in the compressed domain due to due
to security reasons. However, the utilization of deep learning is still very
limited for the processing of compressed images. Motivated by the need of
processing document images in the compressed domain using recent developments
in deep learning, we propose a HWRCNet model for handwritten word recognition
in JPEG compressed domain. The proposed model combines the Convolutional Neural
Network (CNN) and Bi-Directional Long Short Term Memory (BiLSTM) based
Recurrent Neural Network (RNN). Basically, we train the model using compressed
domain images and observe a very appealing performance with 89.05% word
recognition accuracy and 13.37% character error rate.
- Abstract(参考訳): 深層学習を用いた画像からの手書き単語認識は,有望な性能を持つ活発な研究領域である。
実際のシナリオでは、セキュリティ上の理由から、圧縮されたドメインで手書きの画像を処理する必要があるかもしれない。
しかし, 圧縮画像の処理において, ディープラーニングの利用は依然として極めて限られている。
近年のディープラーニングを用いた圧縮領域における文書画像処理の必要性から,JPEG圧縮領域における手書き単語認識のためのHWRCNetモデルを提案する。
提案モデルは、畳み込みニューラルネットワーク(CNN)とBiLSTM(Bi-Directional Long Term Memory)をベースとしたリカレントニューラルネットワーク(RNN)を組み合わせたものである。
基本的に、圧縮されたドメイン画像を用いてモデルを訓練し、89.05%の単語認識精度と13.37%の文字誤り率で非常に魅力的な性能を示す。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - CNNs for JPEGs: A Study in Computational Cost [45.74830585715129]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2023-09-20T15:49:38Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文 参考訳(メタデータ) (2022-09-13T12:07:32Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Deep Learning Based Image Retrieval in the JPEG Compressed Domain [0.0]
本稿では,DCT係数を入力とし,JPEG圧縮領域のグローバルおよびローカルな特徴を直接抽出し,正確な画像検索を行う画像検索統合モデルを提案する。
提案手法は,RGB特徴を平均精度に言及した入力として用いた現在のDELGモデルとよく似ている。
論文 参考訳(メタデータ) (2021-07-08T07:30:03Z) - Benchmarking Scene Text Recognition in Devanagari, Telugu and Malayalam [34.83389169949119]
英語のシーンテキスト認識におけるDeep Learningベースのアプローチの成功に触発されて、3つのIndicスクリプトのシーンテキスト認識をポーズし、ベンチマークする。
Unicodeフォントから描画された合成語画像は、認識システムの訓練に使用される。
私たちは、単語画像を対応するテキストに転写するために、セグメンテーションフリーでハイブリッドでエンドツーエンドのトレーニング可能なCNN-RNNディープニューラルネットワークを使用します。
論文 参考訳(メタデータ) (2021-04-09T15:36:33Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。