論文の概要: OCR for TIFF Compressed Document Images Directly in Compressed Domain
Using Text segmentation and Hidden Markov Model
- arxiv url: http://arxiv.org/abs/2209.09118v1
- Date: Tue, 13 Sep 2022 06:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:14:17.436154
- Title: OCR for TIFF Compressed Document Images Directly in Compressed Domain
Using Text segmentation and Hidden Markov Model
- Title(参考訳): テキストセグメンテーションと隠れマルコフモデルを用いた圧縮領域におけるtiff圧縮文書画像のocr
- Authors: Dikshit Sharma and Mohammed Javed
- Abstract要約: 我々は,CCITT (The International Telegraph and Telephone Consultative Committee) に圧縮されたTIFF文書画像を直接圧縮領域に印刷するOCRを開発するという新しいアイデアを提案する。
テキスト領域を行と単語に分割した後、HMMはCCITT--水平モード、垂直モード、パスモードの3つの符号化モードを用いて認識する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's technological era, document images play an important and integral
part in our day to day life, and specifically with the surge of Covid-19,
digitally scanned documents have become key source of communication, thus
avoiding any sort of infection through physical contact. Storage and
transmission of scanned document images is a very memory intensive task, hence
compression techniques are being used to reduce the image size before archival
and transmission. To extract information or to operate on the compressed
images, we have two ways of doing it. The first way is to decompress the image
and operate on it and subsequently compress it again for the efficiency of
storage and transmission. The other way is to use the characteristics of the
underlying compression algorithm to directly process the images in their
compressed form without involving decompression and re-compression. In this
paper, we propose a novel idea of developing an OCR for CCITT (The
International Telegraph and Telephone Consultative Committee) compressed
machine printed TIFF document images directly in the compressed domain. After
segmenting text regions into lines and words, HMM is applied for recognition
using three coding modes of CCITT- horizontal, vertical and the pass mode.
Experimental results show that OCR on pass modes give a promising results.
- Abstract(参考訳): 今日の技術時代には、文書画像は日々の生活において重要かつ不可欠な役割を担い、特にCovid-19の急増に伴い、デジタルスキャンされた文書がコミュニケーションの鍵となり、物理的接触によるいかなる感染症も避けている。
スキャンされた文書画像の保存と送信は非常にメモリ集約的な作業であり、圧縮技術はアーカイブと送信前の画像サイズを減らすために使用されている。
情報を抽出したり、圧縮画像を操作したりするには、2つの方法があります。
第1の方法は、画像を圧縮して操作し、ストレージと送信の効率性のために再度圧縮することである。
別の方法は、下層の圧縮アルゴリズムの特性を使用して、圧縮された画像を直接処理し、圧縮と再圧縮を伴わないことである。
本稿では,CCITT (The International Telegraph and Telephone Consultative Committee) 圧縮機によるTIFF文書画像を直接圧縮領域に印刷するOCRを開発するための新しいアイデアを提案する。
テキスト領域を行と単語に分割した後、HMMはCCITT--水平、垂直、パスモードの3つの符号化モードを用いて認識する。
実験の結果,パスモードでのOCRは有望な結果をもたらすことがわかった。
関連論文リスト
- UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。
周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。
これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文 参考訳(メタデータ) (2024-05-27T05:52:13Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文 参考訳(メタデータ) (2022-09-13T12:07:32Z) - Towards Robust Data Hiding Against (JPEG) Compression: A
Pseudo-Differentiable Deep Learning Approach [78.05383266222285]
これらの圧縮に対抗できるデータ隠蔽の目標を達成することは、依然としてオープンな課題である。
ディープラーニングはデータの隠蔽に大きな成功を収めていますが、JPEGの非差別化性は、損失のある圧縮に対する堅牢性を改善するための深いパイプラインのトレーニングを困難にしています。
本稿では,上記の制約をすべて一度に解決するための,単純かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-12-30T12:30:09Z) - Compressing Images by Encoding Their Latent Representations with
Relative Entropy Coding [5.687243501594734]
可変オートエンコーダ(VAE)は学習画像圧縮に広く利用されている。
本稿では,単一の画像に対して相対エントロピーに近い符号長で遅延表現を直接エンコードできる新しい手法であるRelative Entropy Coding (REC)を提案する。
論文 参考訳(メタデータ) (2020-10-02T20:23:22Z) - What's in the Image? Explorable Decoding of Compressed Images [45.22726784749359]
ユビキタスJPEG標準のための新しいデコーダアーキテクチャを開発し、圧縮された画像の集合をトラバースする。
我々は、グラフィカル、医学的、法医学的なユースケースに関する我々のフレームワークを例示し、その幅広い潜在的な応用を実証する。
論文 参考訳(メタデータ) (2020-06-16T17:15:44Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。