論文の概要: CALText: Contextual Attention Localization for Offline Handwritten Text
- arxiv url: http://arxiv.org/abs/2111.03952v1
- Date: Sat, 6 Nov 2021 19:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 09:23:17.432235
- Title: CALText: Contextual Attention Localization for Offline Handwritten Text
- Title(参考訳): caltext:オフライン手書きテキストの文脈的注意配置
- Authors: Tayaba Anjum and Nazar Khan
- Abstract要約: 本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。
我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 1.066048003460524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognition of Arabic-like scripts such as Persian and Urdu is more
challenging than Latin-based scripts. This is due to the presence of a
two-dimensional structure, context-dependent character shapes, spaces and
overlaps, and placement of diacritics. Not much research exists for offline
handwritten Urdu script which is the 10th most spoken language in the world. We
present an attention based encoder-decoder model that learns to read Urdu in
context. A novel localization penalty is introduced to encourage the model to
attend only one location at a time when recognizing the next character. In
addition, we comprehensively refine the only complete and publicly available
handwritten Urdu dataset in terms of ground-truth annotations. We evaluate the
model on both Urdu and Arabic datasets and show that contextual attention
localization outperforms both simple attention and multi-directional LSTM
models.
- Abstract(参考訳): ペルシア文字やウルドゥー文字のようなアラビア文字の認識はラテン文字よりも難しい。
これは、二次元構造、文脈に依存した文字の形、空間と重なり合い、およびダイアクリティカルティクスの配置の存在によるものである。
世界第10位の言語であるオフライン手書きのウルドゥ文字については、あまり研究されていない。
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライズペナルティを導入し、モデルが次のキャラクタを認識する際に、一度に1つの場所のみに出席するよう促す。
さらに,本論文では,接地トルースアノテーションの観点から,完全かつ公開のUrduデータセットを網羅的に洗練する。
ウルドゥー語とアラビア語の両方のデータセットでモデルを評価し,文脈的注意定位が単純な注意と多方向lstmモデルよりも優れていることを示す。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。
いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。
単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文 参考訳(メタデータ) (2024-06-25T19:23:42Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Share What You Already Know: Cross-Language-Script Transfer and
Alignment for Sentiment Detection in Code-Mixed Data [0.0]
コードスイッチングには複数の言語が混在しており、ソーシャルメディアのテキストでますます発生してきている現象である。
事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。
各言語でネイティブスクリプトを使用すると、事前訓練された知識のため、テキストのより良い表現が生成される。
論文 参考訳(メタデータ) (2024-02-07T02:59:18Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Efficient Urdu Caption Generation using Attention based LSTM [0.0]
ウルドゥー語はパキスタンの国語であり、パキスタン・インド亜大陸地域で話され、理解されている。
我々は、ウルドゥー語に特化したシーケンスモデリング技術を用いて、注意に基づくディープラーニングモデルを開発する。
提案手法をこのデータセット上で評価し,ウルドゥー語のBLEUスコア0.83を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-08-02T17:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。