論文の概要: Transformer based Urdu Handwritten Text Optical Character Reader
- arxiv url: http://arxiv.org/abs/2206.04575v1
- Date: Thu, 9 Jun 2022 15:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 18:35:46.456800
- Title: Transformer based Urdu Handwritten Text Optical Character Reader
- Title(参考訳): 変圧器を用いたウルドゥ手書き文字文字読取装置
- Authors: Mohammad Daniyal Shaiq, Musa Dildar Ahmed Cheema, Ali Kamal
- Abstract要約: ウルドゥー語の文字は、そのカール的な性質と、その相対的な位置に基づく文字の形状の変化のため、非常に難しい。
複雑な特徴を理解し、様々な手書きスタイルで一般化できるモデルを提案する必要がある。
本研究では,変換器を用いたUrduハンドライトテキスト抽出モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Extracting Handwritten text is one of the most important components of
digitizing information and making it available for large scale setting.
Handwriting Optical Character Reader (OCR) is a research problem in computer
vision and natural language processing computing, and a lot of work has been
done for English, but unfortunately, very little work has been done for low
resourced languages such as Urdu. Urdu language script is very difficult
because of its cursive nature and change of shape of characters based on it's
relative position, therefore, a need arises to propose a model which can
understand complex features and generalize it for every kind of handwriting
style. In this work, we propose a transformer based Urdu Handwritten text
extraction model. As transformers have been very successful in Natural Language
Understanding task, we explore them further to understand complex Urdu
Handwriting.
- Abstract(参考訳): 手書きテキストの抽出は、情報のデジタル化と大規模設定において最も重要なコンポーネントの1つである。
手書き光学文字リーダー(ocr: handwriting optical character reader)はコンピュータビジョンや自然言語処理コンピューティングにおける研究課題であり、英語で多くの作業が行われているが、残念ながらurduのような低リソース言語ではほとんど研究されていない。
ウルドゥ語の文字は、そのカーソル的な性質と、その相対的な位置に基づく文字の形状の変化から非常に困難であるため、複雑な特徴を理解し、あらゆる手書きスタイルに一般化できるモデルを提案する必要がある。
本研究では,トランスフォーマティブ・ベースのurdu手書きテキスト抽出モデルを提案する。
自然言語理解タスクにおいてトランスフォーマーは非常に成功したので、複雑なウルドゥー文字の理解をさらに進める。
関連論文リスト
- Handwriting Recognition in Historical Documents with Multimodal LLM [0.0]
マルチモーダル言語モデルは、ショットプロンプトが少なく、OCRおよびコンピュータビジョンタスクの実行に有効であることを示した。
本稿では,ジェミニが作成した手書き文書の書き起こしの精度を,アートトランスフォーマーに基づく手法の現況に対して評価する。
論文 参考訳(メタデータ) (2024-10-31T15:32:14Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - MetaScript: Few-Shot Handwritten Chinese Content Generation via
Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。
本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文 参考訳(メタデータ) (2023-12-25T17:31:19Z) - Towards Detecting, Recognizing, and Parsing the Address Information from
Bangla Signboard: A Deep Learning-based Approach [1.3778851745408136]
我々は,バングラの看板から情報を検出し,認識し,修正し,解析する深層学習モデルを用いたエンドツーエンドシステムを提案する。
我々は手動で注釈付き合成データセットを作成し、サインボード検出、アドレステキスト検出、アドレステキスト認識、アドレステキストモデルを訓練した。
最後に,最先端のトランスフォーマーに基づく事前学習言語モデルを用いて,Banglaアドレステキストを開発した。
論文 参考訳(メタデータ) (2023-11-22T08:25:15Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Online Gesture Recognition using Transformer and Natural Language
Processing [0.0]
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T10:17:22Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - Urdu Handwritten Text Recognition Using ResNet18 [0.0]
本研究では,500個の候補による3,12000単語を含むurdu nastaliq hand written dataset (unhd) を用いた手書き文字認識のためのresnet18モデルを提案する。
論文 参考訳(メタデータ) (2021-02-19T17:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。