論文の概要: Learned Image Compression with Text Quality Enhancement
- arxiv url: http://arxiv.org/abs/2402.08643v1
- Date: Tue, 13 Feb 2024 18:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:17:48.746766
- Title: Learned Image Compression with Text Quality Enhancement
- Title(参考訳): テキスト品質向上による学習画像圧縮
- Authors: Chih-Yu Lai, Dung Tran, and Kazuhito Koishida
- Abstract要約: 本稿では,オリジナル画像と再構成画像間のテキストの相違を定量化するために設計された,新たなテキストロジット損失を最小限に抑えることを提案する。
提案した損失関数を適切な重み付けと組み合わせることで,再構成テキストの品質が著しく向上することを発見した。
- 参考スコア(独自算出の注目度): 14.105456271662328
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learned image compression has gained widespread popularity for their
efficiency in achieving ultra-low bit-rates. Yet, images containing substantial
textual content, particularly screen-content images (SCI), often suffers from
text distortion at such compressed levels. To address this, we propose to
minimize a novel text logit loss designed to quantify the disparity in text
between the original and reconstructed images, thereby improving the perceptual
quality of the reconstructed text. Through rigorous experimentation across
diverse datasets and employing state-of-the-art algorithms, our findings reveal
significant enhancements in the quality of reconstructed text upon integration
of the proposed loss function with appropriate weighting. Notably, we achieve a
Bjontegaard delta (BD) rate of -32.64% for Character Error Rate (CER) and
-28.03% for Word Error Rate (WER) on average by applying the text logit loss
for two screenshot datasets. Additionally, we present quantitative metrics
tailored for evaluating text quality in image compression tasks. Our findings
underscore the efficacy and potential applicability of our proposed text logit
loss function across various text-aware image compression contexts.
- Abstract(参考訳): 学習した画像圧縮は、超低ビットレートを達成する効率で広く人気を集めている。
しかし、テキストコンテンツ、特にスクリーンコンテンツ画像(SCI)を含む画像は、しばしばそのような圧縮されたレベルでのテキスト歪みに悩まされる。
そこで本研究では,オリジナル画像と再構成画像間のテキストの相違を定量化するために設計された,新たなテキストロジット損失を最小限に抑えることを提案する。
多様なデータセットにまたがって厳密な実験を行い,最先端のアルゴリズムを用いることにより,提案する損失関数と適切な重み付けを統合することで,復元されたテキストの品質が大幅に向上することを示す。
特に,bjontegaard delta (bd) レートは文字誤り率 (cer) が-32.64%,ワードエラー率 (wer) が-28.03%であった。
さらに,画像圧縮タスクのテキスト品質を評価するための定量的指標を提案する。
本研究は,テキスト認識画像圧縮コンテキストにおけるテキストロジット損失関数の有効性と可能性を明らかにするものである。
関連論文リスト
- Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity [18.469136842357095]
我々は,高知覚率と画素ワイド忠実度を両立させる新しいテキスト誘導画像圧縮アルゴリズムを開発した。
これにより、テキスト誘導生成モデルに基づく復号化を避けることができる。
提案手法は,人や機械が生成するキャプションを用いて,高いピクセルレベルと知覚品質を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:15:01Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Multi-Modality Deep Network for Extreme Learned Image Compression [31.532613540054697]
本稿では,テキストのセマンティック情報を先行情報として利用して画像圧縮性能を誘導する,テキスト誘導画像圧縮のためのマルチモーダル機械学習手法を提案する。
さらに,画像とテキストの特徴を融合させるために,画像テキストアテンションモジュールと画像検索サプリメントモジュールを採用し,セマンティック・コンシステント・ロスを改良し,セマンティック・完全再構築を実現する。
論文 参考訳(メタデータ) (2023-04-26T14:22:59Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。