Fugu-MT 論文翻訳(概要): Digging Deeper into CRNN Model in Chinese Text Images Recognition

論文の概要: Digging Deeper into CRNN Model in Chinese Text Images Recognition

arxiv url: http://arxiv.org/abs/2011.08505v1
Date: Tue, 17 Nov 2020 08:46:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 16:47:13.645593
Title: Digging Deeper into CRNN Model in Chinese Text Images Recognition
Title（参考訳）: 中国のテキスト画像認識におけるCRNNモデルの深層化
Authors: Kunhong Yu and Yuze Zhang
Abstract要約: そこで我々は,まず単一画像の認識を行い,次に同じアーキテクチャを拡張して複数画像の認識を行う方法を提案する。ボックスラインを含むexelライクな画像を認識するために,Line-Deep Denoising Convolutional AutoEncoderを提案する。最後に,汎用性を損なうことなく,元のCRNNモデルを圧縮するための知識蒸留(KD)手法を提案する。
参考スコア（独自算出の注目度）: 0.456877715768796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic text image recognition is a prevalent application in computer vision field. One efficient way is use Convolutional Recurrent Neural Network(CRNN) to accomplish task in an end-to-end(End2End) fashion. However, CRNN notoriously fails to detect multi-row images and excel-like images. In this paper, we present one alternative to first recognize single-row images, then extend the same architecture to recognize multi-row images with proposed multiple methods. To recognize excel-like images containing box lines, we propose Line-Deep Denoising Convolutional AutoEncoder(Line-DDeCAE) to recover box lines. Finally, we present one Knowledge Distillation(KD) method to compress original CRNN model without loss of generality. To carry out experiments, we first generate artificial samples from one Chinese novel book, then conduct various experiments to verify our methods.
Abstract（参考訳）: 自動テキスト画像認識はコンピュータビジョン分野における一般的な応用である。 1つの効率的な方法は、畳み込みリカレントニューラルネットワーク(CRNN)を使用して、エンドツーエンド(End2End)方式でタスクを実行することである。しかし、CRNNはマルチロー画像やエクセルライク画像の発見に失敗している。本稿では,まず1つの代替として,複数の手法で同一のアーキテクチャを拡張して複数の画像を認識する方法を提案する。ボックスラインを含むexcelライクな画像を認識するために、ボックスラインを復元するラインディープデノイジング畳み込みオートエンコーダ(line-ddecae)を提案する。最後に,汎用性を損なうことなく元のCRNNモデルを圧縮するための知識蒸留(KD)手法を提案する。実験をするために、まず中国の小説から人工的なサンプルを生成し、それから様々な実験を行い、その方法を検証する。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文参考訳（メタデータ） (2024-09-24T08:46:13Z)
Recurrent Neural Networks for Still Images [0.0]
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
論文参考訳（メタデータ） (2024-09-10T06:07:20Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
ISSTAD: Incremental Self-Supervised Learning Based on Transformer for Anomaly Detection and Localization [12.975540251326683]
本稿では,Transformerのバックボーンネットワークに基づく新しいアプローチを提案する。通常の画像のみに基づいてMasked Autoencoder(MAE)モデルを訓練する。その後の段階では、劣化した正規画像を生成するためにピクセルレベルのデータ拡張技術を適用する。このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類できる。
論文参考訳（メタデータ） (2023-03-30T13:11:26Z)
Unsupervised Industrial Anomaly Detection via Pattern Generative and Contrastive Networks [6.393288885927437]
本稿では,視覚変換器を用いた教師なし異常検出ネットワークを提案する。階層的なタスク学習と人間の経験を利用して、その解釈可能性を高めます。従来の最先端手法を超越した99.8%のAUCを実現した。
論文参考訳（メタデータ） (2022-07-20T10:09:53Z)
Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-04T08:52:46Z)
DIPPAS: A Deep Image Prior PRNU Anonymization Scheme [21.227797471108747]
ソースデバイス識別に利用される典型的なトレースは、Photo Response Non-Uniformity (PRNU) です。画像品質に大きな影響を及ぼすことなく、自然画像からそのような痕跡を抑える手法を考案する。要するに、Convolutional Neural Network (CNN) はジェネレータとして動作し、ソース PRNU に関して匿名化されたイメージを返します。
論文参考訳（メタデータ） (2020-12-07T10:56:50Z)
Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文参考訳（メタデータ） (2020-07-01T17:59:57Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。