論文の概要: A Benchmark for Chinese-English Scene Text Image Super-resolution
- arxiv url: http://arxiv.org/abs/2308.03262v1
- Date: Mon, 7 Aug 2023 02:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:31:53.605416
- Title: A Benchmark for Chinese-English Scene Text Image Super-resolution
- Title(参考訳): 中国語シーン画像の超解像化のためのベンチマーク
- Authors: Jianqi Ma, Zhetong Liang, Wangmeng Xiang, Xi Yang, Lei Zhang
- Abstract要約: Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。
我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
- 参考スコア(独自算出の注目度): 15.042152725255171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Text Image Super-resolution (STISR) aims to recover high-resolution
(HR) scene text images with visually pleasant and readable text content from
the given low-resolution (LR) input. Most existing works focus on recovering
English texts, which have relatively simple character structures, while little
work has been done on the more challenging Chinese texts with diverse and
complex character structures. In this paper, we propose a real-world
Chinese-English benchmark dataset, namely Real-CE, for the task of STISR with
the emphasis on restoring structurally complex Chinese characters. The
benchmark provides 1,935/783 real-world LR-HR text image pairs~(contains 33,789
text lines in total) for training/testing in 2$\times$ and 4$\times$ zooming
modes, complemented by detailed annotations, including detection boxes and text
transcripts. Moreover, we design an edge-aware learning method, which provides
structural supervision in image and feature domains, to effectively reconstruct
the dense structures of Chinese characters. We conduct experiments on the
proposed Real-CE benchmark and evaluate the existing STISR models with and
without our edge-aware loss. The benchmark, including data and source code, is
available at https://github.com/mjq11302010044/Real-CE.
- Abstract(参考訳): Scene Text Image Super- resolution (STISR) は、与えられた低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存するほとんどの著作は、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いているが、多様で複雑な文字構造を持つ中国語のテキストにはほとんど取り組んでいない。
本稿では,構造的に複雑な漢字の復元を重視した実世界の中国語-英語ベンチマークデータセットであるReal-CEを提案する。
このベンチマークでは、実世界のLR-HRテキストイメージペア~(合計33,789行を含む)2$\times$と4$\times$ズームモードのトレーニング/テストが提供されている。
さらに,画像領域と特徴領域の構造的監督を提供するエッジ認識学習手法を設計し,漢字の濃密な構造を効果的に再構築する。
提案したReal-CEベンチマークで実験を行い,既存のSTISRモデルをエッジ認識による損失なしで評価する。
データやソースコードを含むベンチマークはhttps://github.com/mjq11302010044/Real-CEで公開されている。
関連論文リスト
- VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。