論文の概要: CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging
Handwritten Documents using Deep Feature Learning from JPEG Coefficients
- arxiv url: http://arxiv.org/abs/2308.06142v1
- Date: Fri, 11 Aug 2023 14:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 13:56:15.405081
- Title: CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging
Handwritten Documents using Deep Feature Learning from JPEG Coefficients
- Title(参考訳): CompTLL-UNet:JPEG係数からの深層特徴学習を用いた手書き文書における圧縮ドメインテキストラインの局所化
- Authors: Bulla Rajesh and Sk Mahafuz Zaman and Mohammed Javed and P.
Nagabhushan
- Abstract要約: 本稿では,JPEG圧縮領域におけるテキストの局所化を実現するために,JPEG圧縮係数から直接,深層特徴学習を利用する手法を提案する。
Compressed Text-Line Localization Network (CompTLL-UNet) と呼ばれる改良されたU-Netアーキテクチャは、それを実現するために設計されている。
このモデルは、ICDAR 2017 (cBAD) や ICDAR 2019 (cBAD) などのベンチマークデータセットのJPEG圧縮バージョンでトレーニングされ、テストされている。
- 参考スコア(独自算出の注目度): 0.9405458160620535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic localization of text-lines in handwritten documents is still an
open and challenging research problem. Various writing issues such as uneven
spacing between the lines, oscillating and touching text, and the presence of
skew become much more challenging when the case of complex handwritten document
images are considered for segmentation directly in their respective compressed
representation. This is because, the conventional way of processing compressed
documents is through decompression, but here in this paper, we propose an idea
that employs deep feature learning directly from the JPEG compressed
coefficients without full decompression to accomplish text-line localization in
the JPEG compressed domain. A modified U-Net architecture known as Compressed
Text-Line Localization Network (CompTLL-UNet) is designed to accomplish it. The
model is trained and tested with JPEG compressed version of benchmark datasets
including ICDAR2017 (cBAD) and ICDAR2019 (cBAD), reporting the state-of-the-art
performance with reduced storage and computational costs in the JPEG compressed
domain.
- Abstract(参考訳): 手書き文書におけるテキストラインの自動ローカライズは、まだオープンで困難な研究課題である。
複雑な手書き文書画像がそれぞれの圧縮表現で直接セグメンテーションされる場合、行間の間隔のずれ、振動やタッチテキストのずれ、スキューの存在など、様々な書き方の問題がより困難になる。
これは,従来の圧縮文書の処理方法が圧縮処理によるものであるためであるが,本論文では,JPEG圧縮領域におけるテキストの局所化を実現するために,JPEG圧縮係数から直接の深い特徴学習を利用する方法を提案する。
Compressed Text-Line Localization Network (CompTLL-UNet) と呼ばれる改良されたU-Netアーキテクチャは、それを実現するために設計された。
このモデルは、icdar2017(cbad)やicdar2019(cbad)などのベンチマークデータセットのjpeg圧縮バージョンでトレーニングとテストが行われ、jpeg圧縮ドメインにおけるストレージと計算コストの削減による最先端のパフォーマンスを報告している。
関連論文リスト
- The JPEG Pleno Learning-based Point Cloud Coding Standard: Serving Man and Machine [49.16996486119006]
ディープラーニングは、ポイントクラウドコーディングの強力なツールとして登場した。
JPEGは先日、JPEG Pleno LearningベースのPoint Cloud Coding標準を確定した。
本稿ではJPEG PCC標準の完全な技術的記述を提供する。
論文 参考訳(メタデータ) (2024-09-12T15:20:23Z) - Compressed-Language Models for Understanding Compressed File Formats: a JPEG Exploration [82.88166538896331]
我々は、圧縮における鍵概念の共通性と代表性を考慮して、JPEGフォーマットを代表的CFFとして重視する。
我々は、CLMがJPEGフォーマットを理解するかどうかを、固有のファイルプロパティの認識、異常のあるファイルの扱い、新しいファイルの生成という、3つの軸に沿って実行する能力を調べて検証する。
結果から,CFFが生成するファイルのバイトストリームを直接操作する場合,圧縮データのセマンティクスをCLMで理解できることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:09:23Z) - Learned Lossless Compression for JPEG via Frequency-Domain Prediction [50.20577108662153]
JPEG画像のロスレス圧縮を学習するための新しいフレームワークを提案する。
周波数領域での学習を可能にするために、DCT係数は暗黙の局所冗長性を利用するためにグループに分割される。
グループ化されたDCT係数のエントロピーモデリングを実現するために、重み付きブロックに基づいてオートエンコーダのようなアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-05T13:15:28Z) - T2CI-GAN: Text to Compressed Image generation using Generative
Adversarial Network [9.657133242509671]
実際には、ほとんどの視覚データは、圧縮された表現形式で処理され、送信される。
提案手法は,Deep Convolutional GAN(DCGAN)を用いて,圧縮表現形式で直接視覚データを生成しようとするものである。
最初のモデルはJPEG圧縮DCT画像(圧縮領域)で直接訓練され、テキスト記述から圧縮画像を生成する。
第2のモデルはRGB画像(ピクセル領域)でトレーニングされ、テキスト記述からJPEG圧縮DCT表現を生成する。
論文 参考訳(メタデータ) (2022-10-01T09:26:25Z) - Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文 参考訳(メタデータ) (2022-09-13T12:07:32Z) - OCR for TIFF Compressed Document Images Directly in Compressed Domain
Using Text segmentation and Hidden Markov Model [0.0]
我々は,CCITT (The International Telegraph and Telephone Consultative Committee) に圧縮されたTIFF文書画像を直接圧縮領域に印刷するOCRを開発するという新しいアイデアを提案する。
テキスト領域を行と単語に分割した後、HMMはCCITT--水平モード、垂直モード、パスモードの3つの符号化モードを用いて認識する。
論文 参考訳(メタデータ) (2022-09-13T06:34:26Z) - Learning-based Compression for Material and Texture Recognition [23.668803886355683]
本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。
学習ベースのJPEG-AIフレームワークを採用し、バリイングビットレートで圧縮ドメインの潜入表現を使用して材料およびテクスチャ認識を行います。
また, 圧縮領域分類は, より小さな縮小複雑度分類モデルを用いてTop-1とTop-5の精度で競合性能が得られることを示した。
論文 参考訳(メタデータ) (2021-04-16T23:16:26Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - Learning to Improve Image Compression without Changing the Standard
Decoder [100.32492297717056]
本稿では,標準デコーダによる符号化性能向上のための学習法を提案する。
具体的には、DCT係数の分布を最適化する周波数領域事前編集法を提案する。
JPEGデコーダは変更しないので、広く使われている標準JPEGデコーダで画像を見る際には、我々のアプローチが適用可能である。
論文 参考訳(メタデータ) (2020-09-27T19:24:42Z) - Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。
これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-04-17T00:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。