論文の概要: Digging Deeper into CRNN Model in Chinese Text Images Recognition
- arxiv url: http://arxiv.org/abs/2011.08505v1
- Date: Tue, 17 Nov 2020 08:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:47:13.645593
- Title: Digging Deeper into CRNN Model in Chinese Text Images Recognition
- Title(参考訳): 中国のテキスト画像認識におけるCRNNモデルの深層化
- Authors: Kunhong Yu and Yuze Zhang
- Abstract要約: そこで我々は,まず単一画像の認識を行い,次に同じアーキテクチャを拡張して複数画像の認識を行う方法を提案する。
ボックスラインを含むexelライクな画像を認識するために,Line-Deep Denoising Convolutional AutoEncoderを提案する。
最後に,汎用性を損なうことなく,元のCRNNモデルを圧縮するための知識蒸留(KD)手法を提案する。
- 参考スコア(独自算出の注目度): 0.456877715768796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic text image recognition is a prevalent application in computer
vision field. One efficient way is use Convolutional Recurrent Neural
Network(CRNN) to accomplish task in an end-to-end(End2End) fashion. However,
CRNN notoriously fails to detect multi-row images and excel-like images. In
this paper, we present one alternative to first recognize single-row images,
then extend the same architecture to recognize multi-row images with proposed
multiple methods. To recognize excel-like images containing box lines, we
propose Line-Deep Denoising Convolutional AutoEncoder(Line-DDeCAE) to recover
box lines. Finally, we present one Knowledge Distillation(KD) method to
compress original CRNN model without loss of generality. To carry out
experiments, we first generate artificial samples from one Chinese novel book,
then conduct various experiments to verify our methods.
- Abstract(参考訳): 自動テキスト画像認識はコンピュータビジョン分野における一般的な応用である。
1つの効率的な方法は、畳み込みリカレントニューラルネットワーク(CRNN)を使用して、エンドツーエンド(End2End)方式でタスクを実行することである。
しかし、CRNNはマルチロー画像やエクセルライク画像の発見に失敗している。
本稿では,まず1つの代替として,複数の手法で同一のアーキテクチャを拡張して複数の画像を認識する方法を提案する。
ボックスラインを含むexcelライクな画像を認識するために、ボックスラインを復元するラインディープデノイジング畳み込みオートエンコーダ(line-ddecae)を提案する。
最後に,汎用性を損なうことなく元のCRNNモデルを圧縮するための知識蒸留(KD)手法を提案する。
実験をするために、まず中国の小説から人工的なサンプルを生成し、それから様々な実験を行い、その方法を検証する。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - ISSTAD: Incremental Self-Supervised Learning Based on Transformer for
Anomaly Detection and Localization [12.975540251326683]
本稿では,Transformerのバックボーンネットワークに基づく新しいアプローチを提案する。
通常の画像のみに基づいてMasked Autoencoder(MAE)モデルを訓練する。
その後の段階では、劣化した正規画像を生成するためにピクセルレベルのデータ拡張技術を適用する。
このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類できる。
論文 参考訳(メタデータ) (2023-03-30T13:11:26Z) - Unsupervised Industrial Anomaly Detection via Pattern Generative and
Contrastive Networks [8.476686092919596]
本稿では,視覚変換器を用いた教師なし異常検出ネットワークを提案する。
階層的なタスク学習と人間の経験を利用して、その解釈可能性を高めます。
従来の最先端手法を超越した99.8%のAUCを実現した。
論文 参考訳(メタデータ) (2022-07-20T10:09:53Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Saliency Constrained Arbitrary Image Style Transfer using SIFT and DCNN [22.57205921266602]
一般的なニューラルスタイルの転送方法を使用する場合、スタイル画像のテクスチャや色は通常、コンテンツ画像に不完全に転送される。
本稿では,その効果を低減・回避するための新しいサリエンシ制約手法を提案する。
実験により、ソースイメージの正当性マップは正しいマッチングを見つけ出し、アーティファクトを避けるのに役立つことが示された。
論文 参考訳(メタデータ) (2022-01-14T09:00:55Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - DIPPAS: A Deep Image Prior PRNU Anonymization Scheme [21.227797471108747]
ソースデバイス識別に利用される典型的なトレースは、Photo Response Non-Uniformity (PRNU) です。
画像品質に大きな影響を及ぼすことなく、自然画像からそのような痕跡を抑える手法を考案する。
要するに、Convolutional Neural Network (CNN) はジェネレータとして動作し、ソース PRNU に関して匿名化されたイメージを返します。
論文 参考訳(メタデータ) (2020-12-07T10:56:50Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。