論文の概要: TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression
- arxiv url: http://arxiv.org/abs/2603.04115v1
- Date: Wed, 04 Mar 2026 14:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.345501
- Title: TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression
- Title(参考訳): TextBoost:超低ビットレート画像圧縮におけるシーンテキストの忠実度向上
- Authors: Bingxin Wang, Yuan Lan, Zhaoyi Sun, Yang Xiang, Jie Sun,
- Abstract要約: 関心のあるビット割り当てはテキストの優先順位を付けることができるが、グローバルな忠実度を低下させ、局所的精度と全体的な画像品質のトレードオフをもたらす。
我々は、OCRによって抽出された補助的なテキスト情報を無視可能なオーバーヘッドで送信し、デコーダがこのセマンティックガイダンスを活用できるようにする。
TextOCR と ICDAR 2015 でのテストでは、TextBoost は Pak Signal-to-Noise Ratio (PSNR) で最大60.6%高いテキスト認識 F1 と、ピクセル当たりのビット (bpp) を出力している。
- 参考スコア(独自算出の注目度): 11.661973720343546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultra-low bitrate image compression faces a critical challenge: preserving small-font scene text while maintaining overall visual quality. Region-of-interest (ROI) bit allocation can prioritize text but often degrades global fidelity, leading to a trade-off between local accuracy and overall image quality. Instead of relying on ROI coding, we incorporate auxiliary textual information extracted by OCR and transmitted with negligible overhead, enabling the decoder to leverage this semantic guidance. Our method, TextBoost, operationalizes this idea through three strategic designs: (i) adaptively filtering OCR outputs and rendering them into a guidance map; (ii) integrating this guidance with decoder features in a calibrated manner via an attention-guided fusion block; and (iii) enforcing guidance-consistent reconstruction in text regions with a regularizing loss that promotes natural blending with the scene. Extensive experiments on TextOCR and ICDAR 2015 demonstrate that TextBoost yields up to 60.6% higher text-recognition F1 at comparable Peak Signal-to-Noise Ratio (PSNR) and bits per pixel (bpp), producing sharper small-font text while preserving global image quality and effectively decoupling text enhancement from global rate-distortion optimization.
- Abstract(参考訳): 超低ビットレート画像圧縮は、全体的な視覚的品質を維持しながら、小さなシーンテキストを保存するという重要な課題に直面している。
関心の領域(ROI)ビット割り当てはテキストの優先順位を付けることができるが、グローバルな忠実度を低下させることが多く、局所的精度と全体的な画像品質のトレードオフにつながる。
ROIコーディングに頼る代わりに、OCRによって抽出され、無視可能なオーバーヘッドで送信される補助的なテキスト情報を組み込んで、デコーダはこのセマンティックガイダンスを活用することができる。
当社の方法であるTextBoostは,3つの戦略的設計を通じて,このアイデアを運用しています。
i) OCR出力を適応的にフィルタリングし、ガイダンスマップにレンダリングすること。
二 この指導と復号器の特徴を注意誘導融合ブロックを介して校正的に統合すること。
三 シーンとの自然なブレンディングを促進する正規化損失のあるテキスト領域において、ガイダンス一貫性のある再構築を実施すること。
TextOCR と ICDAR 2015 の大規模な実験により、TextBoost は Pak Signal-to-Noise Ratio (PSNR) と bits per pixel (bpp) で最大60.6%高いテキスト認識 F1 を出力し、よりシャープな小さなフォントのテキストを生成するとともに、グローバルな画像品質を保ちながら、グローバルなレート・歪み最適化からテキスト強調を効果的に分離することを示した。
関連論文リスト
- TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering [76.53315206999231]
TextPeckerは、プラグアンドプレイで構造的異常を知覚するRL戦略である。
ノイズの多い報酬信号を緩和し、任意のテキスト・イメージ・ジェネレータで動作する。
構造的忠実度の平均利得は4%、意味的アライメントは8.7%である。
論文 参考訳(メタデータ) (2026-02-24T13:40:23Z) - TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - Unified Diffusion Transformer for High-fidelity Text-Aware Image Restoration [36.43437855052787]
Text-Aware Image Restoration (TAIR) は、劣化したテキストコンテンツを含む低品質な入力から高品質なイメージを復元することを目的としている。
We propose UniT, a unified text restoration framework that in-tegrates a Diffusion Transformer (DiT), a Vision-Language Model (VLM), a Text Spotting Module (TSM)。
SA-TextとReal-Textベンチマークの実験では、UniTは劣化したテキストを忠実に再構築し、幻覚を著しく低減し、TAIRタスクで最先端のF1スコアのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-09T18:56:54Z) - DCText: Scheduled Attention Masking for Visual Text Generation via Divide-and-Conquer Strategy [41.781258763025896]
DCTextは、ディバイド・アンド・コンカエ戦略を採用する、トレーニング不要なビジュアルテキスト生成方法である。
提案手法はまず,対象テキストの抽出と分割によってプロンプトを分解し,それぞれを指定された領域に割り当てる。
単文および複数文のベンチマーク実験により、DCTextは画像品質を損なうことなく、最高のテキスト精度を達成することが示された。
論文 参考訳(メタデータ) (2025-12-01T05:52:55Z) - Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders [14.655107789528673]
本稿では,テキスト認識と共同セグメンテーションデコーダを統合した新しい拡散型SRフレームワークTADiSRを紹介する。
本研究では,高精細なフルイメージのテキストマスクを用いた高品質な画像合成のための完全なパイプラインを提案する。
提案手法は,超解像におけるテキストの可読性を大幅に向上させ,複数の評価指標にまたがって最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T05:23:10Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity [18.469136842357095]
我々は,高知覚率と画素ワイド忠実度を両立させる新しいテキスト誘導画像圧縮アルゴリズムを開発した。
これにより、テキスト誘導生成モデルに基づく復号化を避けることができる。
提案手法は,人や機械が生成するキャプションを用いて,高いピクセルレベルと知覚品質を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:15:01Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。