論文の概要: One-stage Low-resolution Text Recognition with High-resolution Knowledge
Transfer
- arxiv url: http://arxiv.org/abs/2308.02770v1
- Date: Sat, 5 Aug 2023 02:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:49:32.248553
- Title: One-stage Low-resolution Text Recognition with High-resolution Knowledge
Transfer
- Title(参考訳): 高分解能知識転送を用いた1段階低解像度テキスト認識
- Authors: Hang Guo, Tao Dai, Mingyan Zhu, Guanghao Meng, Bin Chen, Zhi Wang,
Shu-Tao Xia
- Abstract要約: 現在の低解像度テキスト認識のソリューションは、通常2段階のパイプラインに依存している。
本稿では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。
実験の結果、提案されたワンステージパイプラインは、超高解像度ベースの2ステージフレームワークよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 53.02254290682613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recognizing characters from low-resolution (LR) text images poses a
significant challenge due to the information deficiency as well as the noise
and blur in low-quality images. Current solutions for low-resolution text
recognition (LTR) typically rely on a two-stage pipeline that involves
super-resolution as the first stage followed by the second-stage recognition.
Although this pipeline is straightforward and intuitive, it has to use an
additional super-resolution network, which causes inefficiencies during
training and testing. Moreover, the recognition accuracy of the second stage
heavily depends on the reconstruction quality of the first stage, causing
ineffectiveness. In this work, we attempt to address these challenges from a
novel perspective: adapting the recognizer to low-resolution inputs by
transferring the knowledge from the high-resolution. Guided by this idea, we
propose an efficient and effective knowledge distillation framework to achieve
multi-level knowledge transfer. Specifically, the visual focus loss is proposed
to extract the character position knowledge with resolution gap reduction and
character region focus, the semantic contrastive loss is employed to exploit
the contextual semantic knowledge with contrastive learning, and the soft
logits loss facilitates both local word-level and global sequence-level
learning from the soft teacher label. Extensive experiments show that the
proposed one-stage pipeline significantly outperforms super-resolution based
two-stage frameworks in terms of effectiveness and efficiency, accompanied by
favorable robustness. Code is available at https://github.com/csguoh/KD-LTR.
- Abstract(参考訳): 低解像度(LR)テキスト画像から文字を認識することは、情報不足と低画質画像のノイズやぼやけのために大きな課題となる。
現在、低解像度テキスト認識(LTR)のソリューションは、2段階のパイプラインに依存しており、第1段階として超解像度で、続いて第2段階の認識を行う。
このパイプラインは直感的で直感的なものだが、さらに超高解像度ネットワークを使用する必要があり、トレーニングやテスト中に非効率性を引き起こす。
さらに、第2ステージの認識精度は第1ステージの復元品質に大きく依存し、非効率の原因となる。
本研究では,認識器を低解像度入力に適応させ,知識を高分解能に伝達する,という新しい視点から,これらの課題に対処しようとする。
本研究では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。
具体的には、解像度ギャップの低減と文字領域のフォーカスで文字位置の知識を抽出し、意味的コントラストの損失を用いてコントラスト学習を行い、ソフトロジットの損失は局所的な単語レベルとグローバルなシーケンスレベルの学習をソフト教師ラベルから促進する。
広範な実験により、提案する1段パイプラインは、有効性と効率の点で、優れたロバスト性を伴うスーパーレゾリューションベースの2段フレームワークを著しく上回っていることが示された。
コードはhttps://github.com/csguoh/kd-ltrで入手できる。
関連論文リスト
- Exploring Deep Learning Image Super-Resolution for Iris Recognition [50.43429968821899]
重畳自動エンコーダ(SAE)と畳み込みニューラルネットワーク(CNN)の2つの深層学習単一画像超解法手法を提案する。
精度評価と認識実験により,1.872個の近赤外虹彩画像のデータベースを用いて評価を行い,比較アルゴリズムよりも深層学習の方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-02T13:57:48Z) - An Enhanced Low-Resolution Image Recognition Method for Traffic
Environments [3.018656336329545]
低解像度の画像は、小さなサイズ、低い品質、詳細さの欠如に悩まされ、従来のニューラルネットワーク認識アルゴリズムの精度が低下する。
本稿では、残差ネットワークの基本構造と共通特徴部分空間アルゴリズムを利用する二重分岐残差ネットワーク構造を提案する。
低解像度画像認識の精度を高めるために、中間層特徴の利用を取り入れている。
論文 参考訳(メタデータ) (2023-09-28T12:38:31Z) - Cross-resolution Face Recognition via Identity-Preserving Network and
Knowledge Distillation [12.090322373964124]
クロスレゾリューション顔認識は、現代の深層顔認識システムにとって難しい問題である。
本稿では,低分解能画像の低周波成分に蓄積される識別情報にネットワークを集中させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T14:52:46Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - IFR: Iterative Fusion Based Recognizer For Low Quality Scene Text
Recognition [20.741958198581173]
高品質なシーンテキスト認識のためのイテレーティブフュージョンベース認識(IFR)を提案する。
IFRには2つのブランチがあり、それぞれ、シーンテキスト認識と低品質のシーンテキストイメージリカバリに焦点を当てている。
2つの枝の特徴表現を強化するために,特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-13T10:45:01Z) - Disentangled High Quality Salient Object Detection [8.416690566816305]
本稿では,SOD(High- resolution Salient Object Detection)のための新しいディープラーニングフレームワークを提案する。
タスクを低分解能唾液度分類ネットワーク(LRSCN)と高分解能精製ネットワーク(HRRN)に切り離す。
論文 参考訳(メタデータ) (2021-08-08T02:14:15Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。