論文の概要: SauvolaNet: Learning Adaptive Sauvola Network for Degraded Document
Binarization
- arxiv url: http://arxiv.org/abs/2105.05521v1
- Date: Wed, 12 May 2021 08:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:23:07.093163
- Title: SauvolaNet: Learning Adaptive Sauvola Network for Degraded Document
Binarization
- Title(参考訳): SauvolaNet: 劣化文書のバイナリ化のための適応型 Sauvola ネットワークの学習
- Authors: Deng Li, Yue Wu and Yicong Zhou
- Abstract要約: DDB (Degraded Document Binarization) のための SauvolaNet という新しいソリューションを提案する。
説明可能な3つのモジュール、Multi-Window Sauvola (MWS)、Pixelwise Window Attention (PWA)、Adaptive Sauolva Threshold (AST)で構成されている。
- 参考スコア(独自算出の注目度): 41.66160079649555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the classic Sauvola local image thresholding approach, we
systematically study it from the deep neural network (DNN) perspective and
propose a new solution called SauvolaNet for degraded document binarization
(DDB). It is composed of three explainable modules, namely, Multi-Window
Sauvola (MWS), Pixelwise Window Attention (PWA), and Adaptive Sauolva Threshold
(AST). The MWS module honestly reflects the classic Sauvola but with trainable
parameters and multi-window settings. The PWA module estimates the preferred
window sizes for each pixel location. The AST module further consolidates the
outputs from MWS and PWA and predicts the final adaptive threshold for each
pixel location. As a result, SauvolaNet becomes end-to-end trainable and
significantly reduces the number of required network parameters to 40K -- it is
only 1\% of MobileNetV2. In the meantime, it achieves the State-of-The-Art
(SoTA) performance for the DDB task -- SauvolaNet is at least comparable to, if
not better than, SoTA binarization solutions in our extensive studies on the 13
public document binarization datasets. Our source code is available at
https://github.com/Leedeng/SauvolaNet.
- Abstract(参考訳): 従来のソーボラ局所画像閾値法に触発されて,深層ニューラルネットワーク(dnn)の観点から体系的に研究し,ddb(degraded document binarization)と呼ばれる新しいソリューションを提案する。
説明可能な3つのモジュール、Multi-Window Sauvola (MWS)、Pixelwise Window Attention (PWA)、Adaptive Sauolva Threshold (AST)で構成されている。
MWSモジュールは古典的なソーヴォーラを忠実に反映しているが、トレーニング可能なパラメータとマルチウィンドウ設定を備えている。
PWAモジュールは、各ピクセル位置の好みのウィンドウサイズを推定する。
ASTモジュールは、さらにMWSおよびPWAからの出力を集約し、各画素位置の最終的な適応閾値を予測する。
その結果、SauvolaNetはエンドツーエンドのトレーニングが可能になり、必要なネットワークパラメータの数を40Kに大幅に削減します。
一方、DDBタスクのState-of-The-Art(SoTA)パフォーマンスを実現しています -- SauvolaNetは、13の公開ドキュメントバイナライゼーションデータセットに関する広範な研究において、少なくともSoTAバイナライゼーションソリューションに匹敵するものです。
ソースコードはhttps://github.com/leedeng/sauvolanetで入手できます。
関連論文リスト
- Memory-Optimized Once-For-All Network [5.008189006630566]
メモリ制限OF(MOOFA)スーパーネットは、異なる構成でメモリ使用量を最大化するように設計されている。
私たちのコードはhttps://github.com/MaximeGirard/Memory-optimized-once-for-all.comで利用可能です。
論文 参考訳(メタデータ) (2024-09-05T20:06:33Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training [3.66237529322911]
我々は、ImageNet事前トレーニングなしで、Salient Object Detectionを直接訓練したスクラッチからニューラルネットワークを開発することを検討する。
本稿では,Salient Object Detection のためのエンコーダデコーダ型ネットワーク SODAWideNet を提案する。
SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種は、5つのデータセット上の最先端モデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-11-08T16:53:44Z) - NORM: Knowledge Distillation via N-to-One Representation Matching [18.973254404242507]
本稿では,2つの線形層からなる簡易な特徴変換 (FT) モジュールに依存する2段階の知識蒸留法を提案する。
教師ネットワークが学習した無傷情報を保存するため、我々のFTモジュールは学生ネットワークの最後の畳み込み層にのみ挿入される。
拡張された生徒表現を、教師と同じ数の特徴チャネルを持つN個の非重複特徴セグメントに順次分割することにより、教師表現を同時に近似させる。
論文 参考訳(メタデータ) (2023-05-23T08:15:45Z) - Progressive Meta-Pooling Learning for Lightweight Image Classification
Model [20.076610051602618]
本稿では,軽量ネットワークにおいて受容場を学習可能にするメタポーリングフレームワークを提案する。
本稿では,パラメータ化空間エンハンサーのためのPMPL(Progressive Meta-Pooling Learning)戦略を提案する。
ImageNetデータセットの結果、Meta-Poolingを使用したMobileNetV2は74.6%で、MobileNetV2の2.3%を上回っている。
論文 参考訳(メタデータ) (2023-01-24T14:28:05Z) - Slimmable Pruned Neural Networks [1.8275108630751844]
S-Net上の各サブネットワークの精度は、同一サイズの個別訓練ネットワークよりも劣る。
プリミングによって学習されたサブネットワーク構造を有するSlimmable Pruned Neural Networks (SP-Net)を提案する。
SP-Netは任意の種類のチャネルプルーニング手法と組み合わせることができ、NASモデルのような複雑な処理や時間を要するアーキテクチャ検索は不要である。
論文 参考訳(メタデータ) (2022-12-07T02:54:15Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - A New Backbone for Hyperspectral Image Reconstruction [90.48427561874402]
3次元ハイパースペクトル画像(HSI)再構成は、スナップショット圧縮画像の逆過程を指す。
空間/スペクトル不変Residual U-Net、すなわちSSI-ResU-Netを提案する。
SSI-ResU-Net は浮動小数点演算の 77.3% 以上で競合する性能を実現する。
論文 参考訳(メタデータ) (2021-08-17T16:20:51Z) - SALA: Soft Assignment Local Aggregation for Parameter Efficient 3D
Semantic Segmentation [65.96170587706148]
3dポイントクラウドセマンティクスセグメンテーションのためのパラメータ効率の良いネットワークを生成するポイントローカルアグリゲーション関数の設計に着目する。
グリッド型アグリゲーション関数における学習可能な隣り合わせソフトアロケーションの利用について検討する。
論文 参考訳(メタデータ) (2020-12-29T20:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。