論文の概要: Persis: A Persian Font Recognition Pipeline Using Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2310.05255v2
- Date: Tue, 10 Oct 2023 05:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:49:04.644648
- Title: Persis: A Persian Font Recognition Pipeline Using Convolutional Neural
Networks
- Title(参考訳): Persis:畳み込みニューラルネットワークを用いたペルシアのフォント認識パイプライン
- Authors: Mehrdad Mohammadian, Neda Maleki, Tobias Olsson, Fredrik Ahlgren
- Abstract要約: ペルシャ文字認識の分野で最初に公開されたデータセットを紹介する。
我々はこの問題を解決するために畳み込みニューラルネットワーク(CNN)を採用している。
我々は、CNN法がペルシア語のフォントを認識するために、追加の事前処理ステップを必要とせずに利用できると結論付けた。
- 参考スコア(独自算出の注目度): 2.239394800147746
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: What happens if we encounter a suitable font for our design work but do not
know its name? Visual Font Recognition (VFR) systems are used to identify the
font typeface in an image. These systems can assist graphic designers in
identifying fonts used in images. A VFR system also aids in improving the speed
and accuracy of Optical Character Recognition (OCR) systems. In this paper, we
introduce the first publicly available datasets in the field of Persian font
recognition and employ Convolutional Neural Networks (CNN) to address this
problem. The results show that the proposed pipeline obtained 78.0% top-1
accuracy on our new datasets, 89.1% on the IDPL-PFOD dataset, and 94.5% on the
KAFD dataset. Furthermore, the average time spent in the entire pipeline for
one sample of our proposed datasets is 0.54 and 0.017 seconds for CPU and GPU,
respectively. We conclude that CNN methods can be used to recognize Persian
fonts without the need for additional pre-processing steps such as feature
extraction, binarization, normalization, etc.
- Abstract(参考訳): デザイン作業に適したフォントに遭遇しても、その名称を知らない場合はどうなりますか?
視覚フォント認識(VFR)システムは、画像中のフォントのフォントを識別するために使用される。
これらのシステムは、グラフィックデザイナーが画像で使われるフォントを特定するのを助けることができる。
VFRシステムは光学文字認識(OCR)システムの速度と精度の向上にも役立っている。
本稿では,ペルシャ文字認識の分野で最初に公開されたデータセットを紹介し,この問題を解決するために畳み込みニューラルネットワーク(CNN)を用いる。
その結果,提案したパイプラインは新たなデータセットで78.0%,IDPL-PFODデータセットで89.1%,KAFDデータセットで94.5%であった。
さらに、提案したデータセットの1つのサンプルでパイプライン全体にかかる平均時間は、CPUとGPUでそれぞれ0.04秒と0.017秒である。
CNN法は,特徴抽出やバイナライゼーション,正規化といった付加的な前処理ステップを必要とせず,ペルシャ文字の認識に利用できる。
関連論文リスト
- Can Encrypted Images Still Train Neural Networks? Investigating Image Information and Random Vortex Transformation [51.475827684468875]
画像変換時の情報内容の変化を評価するために,画像情報量を測定する新しい枠組みを構築した。
また,Random Vortex Transformationと呼ばれる新しい画像暗号化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:14:53Z) - IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition [6.780778335996319]
本稿では,Farsi印刷テキスト認識に適した大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
論文 参考訳(メタデータ) (2023-12-02T16:56:57Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Iranis: A Large-scale Dataset of Farsi License Plate Characters [2.537406035246369]
本稿ではイランの自動車ナンバープレートで使用される数字と文字の画像を含む大規模データセットを提案する。
カメラ撮影角度、照明、解像度、コントラストのさまざまなインスタンスは、データセットをディープラーニングシステムのトレーニングに適した選択にします。
論文 参考訳(メタデータ) (2021-01-01T18:54:44Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - Handwritten Character Recognition from Wearable Passive RFID [1.3190581566723918]
本稿では,シーケンスとビットマップ表現を融合した前処理パイプラインを提案する。
データは全部で7500文字を含む10の被験者から収集される。
提案したモデルは実験で72%の精度に達しており、この挑戦的なデータセットの精度が高いと考えられる。
論文 参考訳(メタデータ) (2020-08-06T09:45:29Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - Large Scale Font Independent Urdu Text Recognition System [1.5229257192293197]
フォントの異なる画像やビデオに印刷されたUrduのテキストを確実に認識できる自動化システムは存在しない。
我々は,256フォントの大規模データセットであるQaidaと,完全なUrdu辞書を開発した。
我々はまた、84.2%の精度でウルドゥー論理を認識できる畳み込みニューラルネットワーク(CNN)に基づく分類モデルを開発した。
論文 参考訳(メタデータ) (2020-05-14T06:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。