論文の概要: CALText: Contextual Attention Localization for Offline Handwritten Text
- arxiv url: http://arxiv.org/abs/2111.03952v1
- Date: Sat, 6 Nov 2021 19:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 09:23:17.432235
- Title: CALText: Contextual Attention Localization for Offline Handwritten Text
- Title(参考訳): caltext:オフライン手書きテキストの文脈的注意配置
- Authors: Tayaba Anjum and Nazar Khan
- Abstract要約: 本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。
我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 1.066048003460524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognition of Arabic-like scripts such as Persian and Urdu is more
challenging than Latin-based scripts. This is due to the presence of a
two-dimensional structure, context-dependent character shapes, spaces and
overlaps, and placement of diacritics. Not much research exists for offline
handwritten Urdu script which is the 10th most spoken language in the world. We
present an attention based encoder-decoder model that learns to read Urdu in
context. A novel localization penalty is introduced to encourage the model to
attend only one location at a time when recognizing the next character. In
addition, we comprehensively refine the only complete and publicly available
handwritten Urdu dataset in terms of ground-truth annotations. We evaluate the
model on both Urdu and Arabic datasets and show that contextual attention
localization outperforms both simple attention and multi-directional LSTM
models.
- Abstract(参考訳): ペルシア文字やウルドゥー文字のようなアラビア文字の認識はラテン文字よりも難しい。
これは、二次元構造、文脈に依存した文字の形、空間と重なり合い、およびダイアクリティカルティクスの配置の存在によるものである。
世界第10位の言語であるオフライン手書きのウルドゥ文字については、あまり研究されていない。
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライズペナルティを導入し、モデルが次のキャラクタを認識する際に、一度に1つの場所のみに出席するよう促す。
さらに,本論文では,接地トルースアノテーションの観点から,完全かつ公開のUrduデータセットを網羅的に洗練する。
ウルドゥー語とアラビア語の両方のデータセットでモデルを評価し,文脈的注意定位が単純な注意と多方向lstmモデルよりも優れていることを示す。
関連論文リスト
- IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - Share What You Already Know: Cross-Language-Script Transfer and
Alignment for Sentiment Detection in Code-Mixed Data [0.0]
コードスイッチングには複数の言語が混在しており、ソーシャルメディアのテキストでますます発生してきている現象である。
事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。
各言語でネイティブスクリプトを使用すると、事前訓練された知識のため、テキストのより良い表現が生成される。
論文 参考訳(メタデータ) (2024-02-07T02:59:18Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Co-occurrences using Fasttext embeddings for word similarity tasks in
Urdu [0.0]
本稿では,Urduのコーパスを構築し,複数のソースからデータを抽出・統合する。
fasttext埋め込みとN-Gramsモデルを変更して、構築されたコーパスでトレーニングできるようにします。
これらのトレーニング済み埋め込みを単語の類似性タスクに使用し、その結果を既存の技術と比較しました。
論文 参考訳(メタデータ) (2021-02-22T12:56:26Z) - Efficient Urdu Caption Generation using Attention based LSTM [0.0]
ウルドゥー語はパキスタンの国語であり、パキスタン・インド亜大陸地域で話され、理解されている。
我々は、ウルドゥー語に特化したシーケンスモデリング技術を用いて、注意に基づくディープラーニングモデルを開発する。
提案手法をこのデータセット上で評価し,ウルドゥー語のBLEUスコア0.83を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-08-02T17:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。