論文の概要: Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2309.08919v1
- Date: Sat, 16 Sep 2023 08:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:31:07.231702
- Title: Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution
- Title(参考訳): pixel adapter: シーンテキスト画像のスーパーレゾリューションのためのグラフベースのポストプロセッシングアプローチ
- Authors: Wenyu Zhang, Xin Deng, Baojun Jia, Xingtong Yu, Yifan Chen, jin Ma,
Qing Ding, Xinming Zhang
- Abstract要約: アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
- 参考スコア(独自算出の注目度): 22.60056946339325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Scene text image super-resolution approaches primarily focus on
extracting robust features, acquiring text information, and complex training
strategies to generate super-resolution images. However, the upsampling module,
which is crucial in the process of converting low-resolution images to
high-resolution ones, has received little attention in existing works. To
address this issue, we propose the Pixel Adapter Module (PAM) based on graph
attention to address pixel distortion caused by upsampling. The PAM effectively
captures local structural information by allowing each pixel to interact with
its neighbors and update features. Unlike previous graph attention mechanisms,
our approach achieves 2-3 orders of magnitude improvement in efficiency and
memory utilization by eliminating the dependency on sparse adjacency matrices
and introducing a sliding window approach for efficient parallel computation.
Additionally, we introduce the MLP-based Sequential Residual Block (MSRB) for
robust feature extraction from text images, and a Local Contour Awareness loss
($\mathcal{L}_{lca}$) to enhance the model's perception of details.
Comprehensive experiments on TextZoom demonstrate that our proposed method
generates high-quality super-resolution images, surpassing existing methods in
recognition accuracy. For single-stage and multi-stage strategies, we achieved
improvements of 0.7\% and 2.6\%, respectively, increasing the performance from
52.6\% and 53.7\% to 53.3\% and 56.3\%. The code is available at
https://github.com/wenyu1009/RTSRN.
- Abstract(参考訳): 現在のSceneテキスト画像の超解像アプローチは主に、頑健な特徴の抽出、テキスト情報取得、および超解像を生成する複雑なトレーニング戦略に焦点を当てている。
しかし,低解像度画像から高解像度画像への変換において重要なアップサンプリングモジュールは,既存の作品ではほとんど注目されていない。
この問題に対処するために,アップサンプリングによるアドレス画素歪みに対するグラフの注意に基づくpixel adapter module (pam)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
従来のグラフアテンション機構とは異なり,分散隣接行列への依存をなくし,効率的な並列計算のためにスライディングウィンドウアプローチを導入することで,効率とメモリ利用の2~3桁の改善を実現する。
さらに,テキスト画像からのロバストな特徴抽出のためのMLPベースのSequential Residual Block (MSRB) と,詳細に対するモデルの認識を高めるためのローカルコンターアウェアネス損失($\mathcal{L}_{lca}$)を導入する。
TextZoomの総合的な実験により,提案手法は認識精度において既存の手法を超え,高品質な超解像を生成することを示した。
単段階戦略と多段階戦略では,それぞれ0.7\%,2.6\%の改善を実現し,52.6\%,53.7\%から53.3\%,56.3\%に向上した。
コードはhttps://github.com/wenyu1009/rtsrnで入手できる。
関連論文リスト
- Accelerating Image Super-Resolution Networks with Pixel-Level Classification [29.010136088811137]
Pixel-level for Single Image SuperResolutionは、ピクセルレベルで計算資源を適応的に分配する新しい手法である。
提案手法では,再学習を伴わない推論における性能と計算コストのバランスが可能である。
論文 参考訳(メタデータ) (2024-07-31T08:53:10Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - Guided Linear Upsampling [8.819059777836628]
ガイドアップサンプリングは高解像度画像処理の高速化に有効な手法である。
出血やぼやけなどのアーティファクトを抑えながら, ディテール効果をよりよく保存することができる。
対話型画像編集とリアルタイム高精細ビデオ処理の両面において,本手法の利点を実証する。
論文 参考訳(メタデータ) (2023-07-13T08:04:24Z) - Super-Resolution of License Plate Images Using Attention Modules and
Sub-Pixel Convolution Layers [3.8831062015253055]
監視画像における構造的特徴およびテクスチャ的特徴の検出を強化するために,Single-Image Super-Resolution (SISR) アプローチを導入する。
提案手法は,サブピクセルの畳み込み層と,光学的文字認識(OCR)モデルを用いて特徴抽出を行うロス関数を含む。
以上の結果から, これらの低解像度合成画像の再構成手法は, 定量化と定性化の両面で, 既存の画像よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-27T00:17:19Z) - DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches [8.812837829361923]
クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
論文 参考訳(メタデータ) (2023-05-06T03:47:20Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution [64.54162195322246]
畳み込みニューラルネットワーク(CNN)は画像超解像(SR)において大きな成功を収めた
ほとんどのディープCNNベースのSRモデルは、高い性能を得るために大量の計算を処理している。
SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。
論文 参考訳(メタデータ) (2022-03-16T20:10:41Z) - Generating Superpixels for High-resolution Images with Decoupled Patch
Calibration [82.21559299694555]
Patch Networks (PCNet) は高解像度のスーパーピクセルセグメンテーションを効率的かつ正確に実装するように設計されている。
DPCは高解像度画像から局所パッチを取得し、動的にバイナリマスクを生成し、ネットワークを領域境界に集中させる。
特に、DPCは高解像度画像からローカルパッチを取り、動的にバイナリマスクを生成して、ネットワークを領域境界に集中させる。
論文 参考訳(メタデータ) (2021-08-19T10:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。