論文の概要: A Comprehensive Comparison of End-to-End Approaches for Handwritten
Digit String Recognition
- arxiv url: http://arxiv.org/abs/2010.15904v1
- Date: Thu, 29 Oct 2020 19:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:11:56.435956
- Title: A Comprehensive Comparison of End-to-End Approaches for Handwritten
Digit String Recognition
- Title(参考訳): 手書き指文字列認識におけるエンドツーエンドアプローチの総合比較
- Authors: Andre G. Hochuli, Alceu S. Britto Jr, David A. Saji, Jose M. Saavedra,
Robert Sabourin, Luiz S. Oliveira
- Abstract要約: 我々は,HDSR問題,特にオブジェクト検出とシーケンス・ツー・シーケンス表現に基づく2つの分野において,様々なエンドツーエンドアプローチを評価した。
以上の結果から,Yoloモデルとセグメント化のないモデルでは,パイプラインが短くなるという利点があることがわかった。
- 参考スコア(独自算出の注目度): 21.522563264752577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last decades, most approaches proposed for handwritten digit string
recognition (HDSR) have resorted to digit segmentation, which is dominated by
heuristics, thereby imposing substantial constraints on the final performance.
Few of them have been based on segmentation-free strategies where each pixel
column has a potential cut location. Recently, segmentation-free strategies has
added another perspective to the problem, leading to promising results.
However, these strategies still show some limitations when dealing with a large
number of touching digits. To bridge the resulting gap, in this paper, we
hypothesize that a string of digits can be approached as a sequence of objects.
We thus evaluate different end-to-end approaches to solve the HDSR problem,
particularly in two verticals: those based on object-detection (e.g., Yolo and
RetinaNet) and those based on sequence-to-sequence representation (CRNN). The
main contribution of this work lies in its provision of a comprehensive
comparison with a critical analysis of the above mentioned strategies on five
benchmarks commonly used to assess HDSR, including the challenging Touching
Pair dataset, NIST SD19, and two real-world datasets (CAR and CVL) proposed for
the ICFHR 2014 competition on HDSR. Our results show that the Yolo model
compares favorably against segmentation-free models with the advantage of
having a shorter pipeline that minimizes the presence of heuristics-based
models. It achieved a 97%, 96%, and 84% recognition rate on the NIST-SD19, CAR,
and CVL datasets, respectively.
- Abstract(参考訳): 過去数十年にわたり、手書き文字文字列認識(HDSR)のためのほとんどのアプローチは、ヒューリスティックに支配される桁分割に頼っており、最終的な性能にかなりの制約を課している。
それらの多くは、各ピクセル列が潜在的なカット位置を持つセグメンテーションフリー戦略に基づいている。
最近、セグメンテーションフリー戦略は問題に別の視点を加え、有望な結果をもたらしている。
しかしながら、これらの戦略は、多数のタッチディジットを扱う場合のいくつかの制限を示している。
結果として生じるギャップを橋渡しするため,本論文では,桁の列を対象の列として扱うことができると仮定する。
そこで我々は,HDSR問題,特にオブジェクト検出に基づくもの(ヨロやRetinaNetなど)とシーケンス・ツー・シーケンス表現に基づくもの(CRNNなど)について,さまざまなエンドツーエンドアプローチを評価した。
この研究の主な貢献は、HDSRに関するICFHR 2014コンペティションのために提案されたTouching Pairデータセット、NIST SD19、および2つの現実世界データセット(CARとCVL)を含む、HDSRの評価に一般的に使用される5つのベンチマークに関する、上記の戦略の総合的な比較である。
以上の結果から,ヨーロモデルとセグメンテーションフリーモデルとの比較は,ヒューリスティックスモデルの存在を最小限に抑えるパイプラインが短いという利点があることがわかった。
NIST-SD19, CAR, CVLデータセットでそれぞれ97%, 96%, 84%の認識率を達成した。
関連論文リスト
- A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
汎用的なビジョンモデルは、様々なビジョンタスクのための1つの同じアーキテクチャを目指している。
このような共有アーキテクチャは魅力的に思えるかもしれないが、ジェネラリストモデルは、その好奇心に満ちたモデルよりも優れている傾向にある。
一般モデルの望ましい性質を損なうことなく、2つの重要なコントリビューションを導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Learning Robust Feature Representations for Scene Text Detection [0.0]
本稿では、条件付きログを最大化するために、損失から導かれるネットワークアーキテクチャを提案する。
潜伏変数の層を複数の層に拡張することで、ネットワークは大規模に堅牢な機能を学ぶことができる。
実験では,提案アルゴリズムはリコール法と精度の両面で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-26T01:06:47Z) - Equalization Loss for Long-Tailed Object Recognition [109.91045951333835]
最先端のオブジェクト検出手法は、大きな語彙と長い尾を持つデータセットでは依然として不十分である。
そこで本稿では,長期的希少なカテゴリーの課題に対処するために,同化損失という,シンプルだが効果的な損失を提案する。
LVISベンチマークでは,レアおよび共通カテゴリのAP利得が4.1%,レアおよび共通カテゴリが4.8%である。
論文 参考訳(メタデータ) (2020-03-11T09:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。