Fugu-MT 論文翻訳(概要): CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging Handwritten Documents using Deep Feature Learning from JPEG Coefficients

論文の概要: CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging Handwritten Documents using Deep Feature Learning from JPEG Coefficients

arxiv url: http://arxiv.org/abs/2308.06142v1
Date: Fri, 11 Aug 2023 14:02:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 13:56:15.405081
Title: CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging Handwritten Documents using Deep Feature Learning from JPEG Coefficients
Title（参考訳）: CompTLL-UNet:JPEG係数からの深層特徴学習を用いた手書き文書における圧縮ドメインテキストラインの局所化
Authors: Bulla Rajesh and Sk Mahafuz Zaman and Mohammed Javed and P. Nagabhushan
Abstract要約: 本稿では,JPEG圧縮領域におけるテキストの局所化を実現するために,JPEG圧縮係数から直接,深層特徴学習を利用する手法を提案する。 Compressed Text-Line Localization Network (CompTLL-UNet) と呼ばれる改良されたU-Netアーキテクチャは、それを実現するために設計されている。このモデルは、ICDAR 2017 (cBAD) や ICDAR 2019 (cBAD) などのベンチマークデータセットのJPEG圧縮バージョンでトレーニングされ、テストされている。
参考スコア（独自算出の注目度）: 0.9405458160620535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic localization of text-lines in handwritten documents is still an open and challenging research problem. Various writing issues such as uneven spacing between the lines, oscillating and touching text, and the presence of skew become much more challenging when the case of complex handwritten document images are considered for segmentation directly in their respective compressed representation. This is because, the conventional way of processing compressed documents is through decompression, but here in this paper, we propose an idea that employs deep feature learning directly from the JPEG compressed coefficients without full decompression to accomplish text-line localization in the JPEG compressed domain. A modified U-Net architecture known as Compressed Text-Line Localization Network (CompTLL-UNet) is designed to accomplish it. The model is trained and tested with JPEG compressed version of benchmark datasets including ICDAR2017 (cBAD) and ICDAR2019 (cBAD), reporting the state-of-the-art performance with reduced storage and computational costs in the JPEG compressed domain.
Abstract（参考訳）: 手書き文書におけるテキストラインの自動ローカライズは、まだオープンで困難な研究課題である。複雑な手書き文書画像がそれぞれの圧縮表現で直接セグメンテーションされる場合、行間の間隔のずれ、振動やタッチテキストのずれ、スキューの存在など、様々な書き方の問題がより困難になる。これは,従来の圧縮文書の処理方法が圧縮処理によるものであるためであるが,本論文では,JPEG圧縮領域におけるテキストの局所化を実現するために,JPEG圧縮係数から直接の深い特徴学習を利用する方法を提案する。 Compressed Text-Line Localization Network (CompTLL-UNet) と呼ばれる改良されたU-Netアーキテクチャは、それを実現するために設計された。このモデルは、icdar2017(cbad)やicdar2019(cbad)などのベンチマークデータセットのjpeg圧縮バージョンでトレーニングとテストが行われ、jpeg圧縮ドメインにおけるストレージと計算コストの削減による最先端のパフォーマンスを報告している。

関連論文リスト

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文参考訳（メタデータ） (2026-02-12T18:15:08Z)
Transformers from Compressed Representations [74.48571451824569]
TEMPEST (TransformErs froM comPressed rEpreSenTations) は、圧縮されたファイルのバイトストリーム構造を利用して効果的なトークン化と符号化戦略を設計する手法である。本提案では,意味分類に必要なトークン数を大幅に削減し,計算複雑性とメモリ使用量の両方を削減する。
論文参考訳（メタデータ） (2025-10-26T13:48:03Z)
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文参考訳（メタデータ） (2025-03-25T09:36:13Z)
The JPEG Pleno Learning-based Point Cloud Coding Standard: Serving Man and Machine [49.16996486119006]
ディープラーニングは、ポイントクラウドコーディングの強力なツールとして登場した。 JPEGは先日、JPEG Pleno LearningベースのPoint Cloud Coding標準を確定した。本稿ではJPEG PCC標準の完全な技術的記述を提供する。
論文参考訳（メタデータ） (2024-09-12T15:20:23Z)
Compressed-Language Models for Understanding Compressed File Formats: a JPEG Exploration [82.88166538896331]
我々は、圧縮における鍵概念の共通性と代表性を考慮して、JPEGフォーマットを代表的CFFとして重視する。我々は、CLMがJPEGフォーマットを理解するかどうかを、固有のファイルプロパティの認識、異常のあるファイルの扱い、新しいファイルの生成という、3つの軸に沿って実行する能力を調べて検証する。結果から,CFFが生成するファイルのバイトストリームを直接操作する場合,圧縮データのセマンティクスをCLMで理解できることが示唆された。
論文参考訳（メタデータ） (2024-05-27T13:09:23Z)
Learned Lossless Compression for JPEG via Frequency-Domain Prediction [50.20577108662153]
JPEG画像のロスレス圧縮を学習するための新しいフレームワークを提案する。周波数領域での学習を可能にするために、DCT係数は暗黙の局所冗長性を利用するためにグループに分割される。グループ化されたDCT係数のエントロピーモデリングを実現するために、重み付きブロックに基づいてオートエンコーダのようなアーキテクチャを設計する。
論文参考訳（メタデータ） (2023-03-05T13:15:28Z)
T2CI-GAN: Text to Compressed Image generation using Generative Adversarial Network [9.657133242509671]
実際には、ほとんどの視覚データは、圧縮された表現形式で処理され、送信される。提案手法は,Deep Convolutional GAN(DCGAN)を用いて,圧縮表現形式で直接視覚データを生成しようとするものである。最初のモデルはJPEG圧縮DCT画像(圧縮領域)で直接訓練され、テキスト記述から圧縮画像を生成する。第2のモデルはRGB画像(ピクセル領域)でトレーニングされ、テキスト記述からJPEG圧縮DCT表現を生成する。
論文参考訳（メタデータ） (2022-10-01T09:26:25Z)
Document Image Binarization in JPEG Compressed Domain using Dual Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文参考訳（メタデータ） (2022-09-13T12:07:32Z)
OCR for TIFF Compressed Document Images Directly in Compressed Domain Using Text segmentation and Hidden Markov Model [0.0]
我々は,CCITT (The International Telegraph and Telephone Consultative Committee) に圧縮されたTIFF文書画像を直接圧縮領域に印刷するOCRを開発するという新しいアイデアを提案する。テキスト領域を行と単語に分割した後、HMMはCCITT--水平モード、垂直モード、パスモードの3つの符号化モードを用いて認識する。
論文参考訳（メタデータ） (2022-09-13T06:34:26Z)
Learning-based Compression for Material and Texture Recognition [23.668803886355683]
本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。学習ベースのJPEG-AIフレームワークを採用し、バリイングビットレートで圧縮ドメインの潜入表現を使用して材料およびテクスチャ認識を行います。また, 圧縮領域分類は, より小さな縮小複雑度分類モデルを用いてTop-1とTop-5の精度で競合性能が得られることを示した。
論文参考訳（メタデータ） (2021-04-16T23:16:26Z)
Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文参考訳（メタデータ） (2021-02-11T11:28:39Z)
Learning to Improve Image Compression without Changing the Standard Decoder [100.32492297717056]
本稿では,標準デコーダによる符号化性能向上のための学習法を提案する。具体的には、DCT係数の分布を最適化する周波数領域事前編集法を提案する。 JPEGデコーダは変更しないので、広く使われている標準JPEGデコーダで画像を見る際には、我々のアプローチが適用可能である。
論文参考訳（メタデータ） (2020-09-27T19:24:42Z)
Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文参考訳（メタデータ） (2020-04-17T00:10:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。