論文の概要: End-to-End Semantic Preservation in Text-Aware Image Compression Systems
- arxiv url: http://arxiv.org/abs/2503.19495v2
- Date: Wed, 15 Oct 2025 11:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.301044
- Title: End-to-End Semantic Preservation in Text-Aware Image Compression Systems
- Title(参考訳): テキスト認識画像圧縮システムにおけるエンドツーエンドのセマンティック保存
- Authors: Stefano Della Fiore, Alessandro Gnutti, Marco Dalai, Pierangelo Migliorati, Riccardo Leonardi,
- Abstract要約: 光文字認識(OCR)のためのテキスト固有の特徴を保持するエンドツーエンド圧縮フレームワークを提案する。
実験では、低速度でのテキスト抽出精度が大幅に向上し、圧縮されていない画像ではOCRよりも優れていた。
我々はこの研究を汎用エンコーダに拡張し、極端圧縮下で隠れセマンティクスを保存する能力を探究する。
- 参考スコア(独自算出の注目度): 42.76781276416154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional image compression methods aim to reconstruct images for human perception, prioritizing visual fidelity over task relevance. In contrast, Coding for Machines focuses on preserving information essential for automated understanding. Building on this principle, we present an end-to-end compression framework that retains text-specific features for Optical Character Recognition (OCR). The encoder operates at roughly half the computational cost of the OCR module, making it suitable for resource-limited devices. When on-device OCR is infeasible, images can be efficiently compressed and later decoded to recover textual content. Experiments show significant improvements in text extraction accuracy at low bitrates, even outperforming OCR on uncompressed images. We further extend this study to general-purpose encoders, exploring their capacity to preserve hidden semantics under extreme compression. Instead of optimizing for visual fidelity, we examine whether compact, visually degraded representations can retain recoverable meaning through learned enhancement and recognition modules. Results demonstrate that semantic information can persist despite severe compression, bridging text-oriented compression and general-purpose semantic preservation in machine-centered image coding.
- Abstract(参考訳): 従来の画像圧縮手法は、タスク関連性よりも視覚的忠実度を優先して、人間の知覚のためにイメージを再構成することを目的としている。
対照的に、Coding for Machinesは自動理解に必要な情報の保存に重点を置いている。
この原理に基づいて,光学文字認識(OCR)のためのテキスト固有の特徴を保持するエンドツーエンド圧縮フレームワークを提案する。
エンコーダはOCRモジュールの計算コストの約半分で動作し、リソース制限されたデバイスに適している。
オンデバイスOCRが実現できない場合、画像は効率よく圧縮され、後に復号され、テキストコンテンツが復元される。
実験では、低ビットレートでのテキスト抽出精度が大幅に向上し、圧縮されていない画像ではOCRよりも優れていた。
我々はこの研究をさらに汎用エンコーダに拡張し、極端圧縮下で隠れセマンティクスを保存する能力を探究する。
視覚的忠実度を最適化する代わりに、学習したエンハンスメントと認識モジュールを通して、コンパクトで視覚的に劣化した表現が回復可能な意味を維持することができるかどうかを検討する。
その結果, 機械中心画像符号化において, 重大圧縮, ブリッジングテキスト指向圧縮, 汎用的意味保存に拘わらず, 意味情報が持続できることが示唆された。
関連論文リスト
- Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation [6.385732495789276]
ドキュメントアライメントは、自動フォーム処理、異常検出、ワークフロー自動化など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。
文書アライメントの伝統的な手法は、ホモグラフのような幾何学的変換を推定するために、キーポイント、エッジ、テクスチャのような画像ベースの特徴に依存している。
本稿では,光学文字認識(OCR)出力をホモグラフィー推定の特徴として活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-25T01:20:32Z) - Efficient Masked Image Compression with Position-Indexed Self-Attention [6.64044416324419]
位置インデクシングによる自己アテンション機構に基づく画像圧縮手法を提案する。
既存の意味構造圧縮法と比較して,本手法は計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2025-04-17T13:12:39Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - OCR for TIFF Compressed Document Images Directly in Compressed Domain
Using Text segmentation and Hidden Markov Model [0.0]
我々は,CCITT (The International Telegraph and Telephone Consultative Committee) に圧縮されたTIFF文書画像を直接圧縮領域に印刷するOCRを開発するという新しいアイデアを提案する。
テキスト領域を行と単語に分割した後、HMMはCCITT--水平モード、垂直モード、パスモードの3つの符号化モードを用いて認識する。
論文 参考訳(メタデータ) (2022-09-13T06:34:26Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。