論文の概要: CharFormer: A Glyph Fusion based Attentive Framework for High-precision
Character Image Denoising
- arxiv url: http://arxiv.org/abs/2207.07798v2
- Date: Tue, 19 Jul 2022 17:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 11:19:06.988526
- Title: CharFormer: A Glyph Fusion based Attentive Framework for High-precision
Character Image Denoising
- Title(参考訳): charformer:高精度文字画像検出のためのglyph fusionベースの注意フレームワーク
- Authors: Daqian Shi, Xiaolei Diao, Lida Shi, Hao Tang, Yang Chi, Chuntao Li,
Hao Xu
- Abstract要約: 本稿では,グリフ融合とアテンション機構に基づく新しいフレームワーク,すなわちCharFormerを導入し,文字画像の正確な復元を行う。
既存のフレームワークとは異なり、CharFormerは追加情報をキャプチャし、バックボーンを飾るイメージにそれを注入する並列ターゲットタスクを導入している。
我々は注目に基づくネットワークをグローバルな特徴相互作用に利用し、視覚障害者の認知と聴覚障害者のパフォーマンス向上に役立てる。
- 参考スコア(独自算出の注目度): 10.53596428004378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Degraded images commonly exist in the general sources of character images,
leading to unsatisfactory character recognition results. Existing methods have
dedicated efforts to restoring degraded character images. However, the
denoising results obtained by these methods do not appear to improve character
recognition performance. This is mainly because current methods only focus on
pixel-level information and ignore critical features of a character, such as
its glyph, resulting in character-glyph damage during the denoising process. In
this paper, we introduce a novel generic framework based on glyph fusion and
attention mechanisms, i.e., CharFormer, for precisely recovering character
images without changing their inherent glyphs. Unlike existing frameworks,
CharFormer introduces a parallel target task for capturing additional
information and injecting it into the image denoising backbone, which will
maintain the consistency of character glyphs during character image denoising.
Moreover, we utilize attention-based networks for global-local feature
interaction, which will help to deal with blind denoising and enhance denoising
performance. We compare CharFormer with state-of-the-art methods on multiple
datasets. The experimental results show the superiority of CharFormer
quantitatively and qualitatively.
- Abstract(参考訳): 劣化画像は一般的に文字画像の一般的なソースに存在し、不満足な文字認識結果をもたらす。
既存の手法では、劣化した文字画像の復元に力を入れている。
しかし,これらの手法は文字認識性能の向上に寄与しないと考えられる。
これは主に、現在の手法がピクセルレベルの情報のみに焦点をあて、グリフのような文字の批判的な特徴を無視しているためである。
本稿では,グリフ融合とアテンション機構に基づく新しい汎用フレームワーク,すなわちCharFormerを導入し,固有のグリフを変更せずに文字イメージを正確に復元する。
既存のフレームワークとは異なり、CharFormerでは、追加情報をキャプチャしてバックボーンを飾るイメージに注入する並列ターゲットタスクを導入している。
さらに,注目に基づくネットワークをグローバルな特徴相互作用に活用し,視覚障害者の認知と聴覚障害者のパフォーマンス向上に役立てる。
CharFormerを複数のデータセット上の最先端のメソッドと比較する。
実験の結果,CharFormerの定量的および定性的優位性を示した。
関連論文リスト
- AMNS: Attention-Weighted Selective Mask and Noise Label Suppression for Text-to-Image Person Retrieval [3.591122855617648]
画像品質の低下と誤ラベルのため、画像テキストペアに相関性や偽相関性の問題が発生する。
本稿では,新しいノイズラベル抑制手法を提案し,ランダムマスクによって生じる問題を緩和する。
論文 参考訳(メタデータ) (2024-09-10T10:08:01Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。
提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。
提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文 参考訳(メタデータ) (2023-03-23T09:33:44Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Dynamic Attentive Graph Learning for Image Restoration [6.289143409131908]
画像復元のためのパッチレベルにおける動的非局所特性を探索する動的注意グラフ学習モデル(DAGL)を提案する。
我々のDAGLは、精度と視覚的品質に優れた最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2021-09-14T12:19:15Z) - Synergy Between Semantic Segmentation and Image Denoising via Alternate
Boosting [102.19116213923614]
ノイズ除去とセグメンテーションを交互に行うためのブーストネットワークを提案する。
我々は,ノイズによるセグメンテーション精度の低下に対処するだけでなく,画素別意味情報によってデノージング能力が向上することを示す。
実験の結果,デノイド画像の品質が大幅に向上し,セグメンテーション精度がクリーン画像に近いことを示した。
論文 参考訳(メタデータ) (2021-02-24T06:48:45Z) - Image Denoising Using the Geodesics' Gramian of the Manifold Underlying Patch-Space [1.7767466724342067]
本稿では,正確な画像を生成することができる新しい,計算効率の良い画像復号法を提案する。
画像の滑らか性を維持するため、画素ではなく画像から分割されたパッチを入力する。
本稿では,この手法の性能をベンチマーク画像処理法に対して検証する。
論文 参考訳(メタデータ) (2020-10-14T04:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。