論文の概要: A Hybrid Deep Learning Model for Arabic Text Recognition
- arxiv url: http://arxiv.org/abs/2009.01987v1
- Date: Fri, 4 Sep 2020 02:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:32:55.063856
- Title: A Hybrid Deep Learning Model for Arabic Text Recognition
- Title(参考訳): アラビア語テキスト認識のためのハイブリッドディープラーニングモデル
- Authors: Mohammad Fasha, Bassam Hammo, Nadim Obeid, Jabir Widian
- Abstract要約: 本稿では,複数のフォントタイプを用いて印刷されたアラビア文字を認識可能なモデルを提案する。
提案モデルでは,文字セグメンテーションを必要とせずにアラビア文字を認識可能なハイブリッドDLネットワークを採用している。
このモデルは文字と単語の認識において良好な結果が得られ、また、未知のデータでテストされた文字の認識においても有望な結果が得られた。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arabic text recognition is a challenging task because of the cursive nature
of Arabic writing system, its joint writing scheme, the large number of
ligatures and many other challenges. Deep Learning DL models achieved
significant progress in numerous domains including computer vision and sequence
modelling. This paper presents a model that can recognize Arabic text that was
printed using multiple font types including fonts that mimic Arabic handwritten
scripts. The proposed model employs a hybrid DL network that can recognize
Arabic printed text without the need for character segmentation. The model was
tested on a custom dataset comprised of over two million word samples that were
generated using 18 different Arabic font types. The objective of the testing
process was to assess the model capability in recognizing a diverse set of
Arabic fonts representing a varied cursive styles. The model achieved good
results in recognizing characters and words and it also achieved promising
results in recognizing characters when it was tested on unseen data. The
prepared model, the custom datasets and the toolkit for generating similar
datasets are made publicly available, these tools can be used to prepare models
for recognizing other font types as well as to further extend and enhance the
performance of the proposed model.
- Abstract(参考訳): アラビア語のテキスト認識は、アラビア語の文字体系の簡潔な性質、その共同の文字体系、多数のリガチュア、その他多くの課題により、難しい課題である。
ディープラーニングDLモデルはコンピュータビジョンやシーケンスモデリングを含む多くの領域で大きな進歩を遂げた。
本稿では,アラビア文字を模倣したフォントを含む複数のフォントタイプを用いて印刷されたアラビア文字を認識するモデルを提案する。
提案モデルでは,文字セグメンテーションを必要とせずにアラビア文字を認識可能なハイブリッドDLネットワークを採用している。
このモデルは、18種類のアラビア文字タイプで生成された200万以上の単語サンプルからなるカスタムデータセットでテストされた。
テストプロセスの目的は、様々なカーシブスタイルを表すアラビア語フォントの多様なセットを認識するモデルの能力を評価することであった。
このモデルでは文字や単語の認識に優れた結果が得られ、また見当たらないデータ上での文字認識にも有望な結果が得られた。
準備されたモデル、カスタムデータセット、同様のデータセットを生成するツールキットが公開されており、これらのツールは、他のフォントタイプを認識するためのモデルの準備や、提案されたモデルの性能をさらに拡張および強化するために使用することができる。
関連論文リスト
- GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Design of Arabic Sign Language Recognition Model [0.0]
このモデルはArASL 2018でテストされ、40の署名者から集められた32のアルファベット記号に対して54,000の画像で構成されている。
今後の開発は、アラビア語の手話からアラビア語のテキストに変換するモデルになる予定だ。
論文 参考訳(メタデータ) (2023-01-06T19:19:25Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - AraELECTRA: Pre-Training Text Discriminators for Arabic Language
Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。
我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。
AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文 参考訳(メタデータ) (2020-12-31T09:35:39Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。