論文の概要: DWT-CompCNN: Deep Image Classification Network for High Throughput JPEG
2000 Compressed Documents
- arxiv url: http://arxiv.org/abs/2306.01359v1
- Date: Fri, 2 Jun 2023 08:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:03:37.485490
- Title: DWT-CompCNN: Deep Image Classification Network for High Throughput JPEG
2000 Compressed Documents
- Title(参考訳): DWT-CompCNN:高スループットJPEG 2000圧縮文書のためのディープイメージ分類ネットワーク
- Authors: Tejasvee Bisen, Mohammed Javed, Shashank Kirtania, P. Nagabhushan
- Abstract要約: DWT CompCNN は High Throughput JPEG 2000 (HTJ2K) アルゴリズムを用いて圧縮された文書の分類を行う。
提案モデルでは時間と空間の効率が向上し,圧縮領域の分類精度も向上する。
- 参考スコア(独自算出の注目度): 0.9405458160620535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For any digital application with document images such as retrieval, the
classification of document images becomes an essential stage. Conventionally
for the purpose, the full versions of the documents, that is the uncompressed
document images make the input dataset, which poses a threat due to the big
volume required to accommodate the full versions of the documents. Therefore,
it would be novel, if the same classification task could be accomplished
directly (with some partial decompression) with the compressed representation
of documents in order to make the whole process computationally more efficient.
In this research work, a novel deep learning model, DWT CompCNN is proposed for
classification of documents that are compressed using High Throughput JPEG 2000
(HTJ2K) algorithm. The proposed DWT-CompCNN comprises of five convolutional
layers with filter sizes of 16, 32, 64, 128, and 256 consecutively for each
increasing layer to improve learning from the wavelet coefficients extracted
from the compressed images. Experiments are performed on two benchmark
datasets- Tobacco-3482 and RVL-CDIP, which demonstrate that the proposed model
is time and space efficient, and also achieves a better classification accuracy
in compressed domain.
- Abstract(参考訳): 検索などの文書画像を持つデジタルアプリケーションの場合、文書画像の分類は必須の段階となる。
典型的には、圧縮されていない文書画像である文書のフルバージョンが入力データセットを作成し、ドキュメントのフルバージョンに対応するのに必要な膨大なボリュームが脅威となる。
したがって、プロセス全体を計算効率良くするために、文書の圧縮表現で、同じ分類タスクを(部分的な除圧縮で)直接(一部で)達成できることは、新しいことである。
本研究では,ハイスループットJPEG 2000(HTJ2K)アルゴリズムを用いて圧縮された文書の分類のために,新しいディープラーニングモデルDWT CompCNNを提案する。
提案したDWT-CompCNNは,フィルタサイズ16,32,64,128,256の5つの畳み込み層から構成され,圧縮画像から抽出したウェーブレット係数からの学習を改善する。
Tobacco-3482 と RVL-CDIP の2つのベンチマークデータセットで実験を行い、提案モデルが時間と空間効率であり、圧縮領域の分類精度も向上することを示した。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Data-Efficient Sequence-Based Visual Place Recognition with Highly
Compressed JPEG Images [17.847661026367767]
視覚的場所認識(VPR)は、ロボットプラットフォームが環境中をローカライズすることを可能にする基本的なタスクである。
JPEGは画像圧縮標準であり、VPRアプリケーションの低データ伝送を容易にするために高い圧縮比を使用することができる。
高レベルのJPEG圧縮を適用すると、画像の明度とサイズが大幅に削減される。
論文 参考訳(メタデータ) (2023-02-26T13:13:51Z) - Deep Selector-JPEG: Adaptive JPEG Image Compression for Computer Vision
in Image classification with Human Vision Criteria [8.615661848178183]
本稿では,画像分類をターゲットとした適応JPEG圧縮手法であるDeep Selector-HVを提案する。
ディープセレクタ−HVは、圧縮率(CR)と分類器精度(精度性能)との良好なトレードオフを実現するために、画像圧縮のための品質係数(QF)を適応的に選択する。
論文 参考訳(メタデータ) (2023-02-19T12:38:20Z) - Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文 参考訳(メタデータ) (2022-09-13T12:07:32Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Learning to Improve Image Compression without Changing the Standard
Decoder [100.32492297717056]
本稿では,標準デコーダによる符号化性能向上のための学習法を提案する。
具体的には、DCT係数の分布を最適化する周波数領域事前編集法を提案する。
JPEGデコーダは変更しないので、広く使われている標準JPEGデコーダで画像を見る際には、我々のアプローチが適用可能である。
論文 参考訳(メタデータ) (2020-09-27T19:24:42Z) - Remote Sensing Image Scene Classification with Deep Neural Networks in
JPEG 2000 Compressed Domain [8.296684637620553]
ディープニューラルネットワーク(DNN)を用いた既存のシーン分類アプローチでは、画像を完全に圧縮する必要がある。
JPEG 2000圧縮RS画像におけるシーン分類を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-20T09:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。