Fugu-MT 論文翻訳(概要): CALText: Contextual Attention Localization for Offline Handwritten Text

論文の概要: CALText: Contextual Attention Localization for Offline Handwritten Text

arxiv url: http://arxiv.org/abs/2111.03952v1
Date: Sat, 6 Nov 2021 19:54:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-10 09:23:17.432235
Title: CALText: Contextual Attention Localization for Offline Handwritten Text
Title（参考訳）: caltext:オフライン手書きテキストの文脈的注意配置
Authors: Tayaba Anjum and Nazar Khan
Abstract要約: 本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
参考スコア（独自算出の注目度）: 1.066048003460524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recognition of Arabic-like scripts such as Persian and Urdu is more challenging than Latin-based scripts. This is due to the presence of a two-dimensional structure, context-dependent character shapes, spaces and overlaps, and placement of diacritics. Not much research exists for offline handwritten Urdu script which is the 10th most spoken language in the world. We present an attention based encoder-decoder model that learns to read Urdu in context. A novel localization penalty is introduced to encourage the model to attend only one location at a time when recognizing the next character. In addition, we comprehensively refine the only complete and publicly available handwritten Urdu dataset in terms of ground-truth annotations. We evaluate the model on both Urdu and Arabic datasets and show that contextual attention localization outperforms both simple attention and multi-directional LSTM models.
Abstract（参考訳）: ペルシア文字やウルドゥー文字のようなアラビア文字の認識はラテン文字よりも難しい。これは、二次元構造、文脈に依存した文字の形、空間と重なり合い、およびダイアクリティカルティクスの配置の存在によるものである。世界第10位の言語であるオフライン手書きのウルドゥ文字については、あまり研究されていない。本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。新たなローカライズペナルティを導入し、モデルが次のキャラクタを認識する際に、一度に1つの場所のみに出席するよう促す。さらに,本論文では,接地トルースアノテーションの観点から,完全かつ公開のUrduデータセットを網羅的に洗練する。ウルドゥー語とアラビア語の両方のデータセットでモデルを評価し,文脈的注意定位が単純な注意と多方向lstmモデルよりも優れていることを示す。

関連論文リスト

DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text [1.299941371793082]
531名のコントリビュータから収集した手書きHindiテキストの大規模マルチライターデータセットであるDohaScriptを紹介した。このデータセットは平行なスタイリスティックなコーパスとして設計されており、すべてのライターが6つの伝統的なヒンディー教のドーハ(カップレット)の同じ固定セットを転写する。 DohaScriptは、低リソースのスクリプト設定で連続手書きDevanagariテキストの研究を進めるための標準化され再現可能なベンチマークとして機能することを意図している。
論文参考訳（メタデータ） (2026-02-20T09:25:14Z)
DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding [32.85312741808662]
1,272のキュレートされたサンプルのベンチマークであるDuwatBenchについて紹介する。このデータセットは、複雑なストロークパターン、密集したリグチュア、スタイリスティックなバリエーションなど、アラビア文字の現実的な課題を反映している。 DuwatBenchを用いて、アラビア語と多言語のマルチモーダルモデルを13種類評価し、クリーンテキストでうまく機能する一方で、書体の変化、芸術的歪み、正確な視覚的テキストアライメントに苦慮していることを示した。
論文参考訳（メタデータ） (2026-01-27T18:59:19Z)
ParsTranslit: Truly Versatile Tajik-Farsi Transliteration [6.164342356356261]
ペルシア語は、アフガニスタンとイランのペルソ・アラビア語と、タジキスタンのタジク・キリル語という2つの標準を用いている。文字の違いは、単純な1対1のマッピングを妨げ、タジキスタンとペルシャ語を話す兄弟の間で書かれたコミュニケーションと相互作用を妨げる」。そこで本研究では,タジク・ファルシ文字翻訳のための最先端のシーケンス・ツー・シーケンスモデルを提案する。
論文参考訳（メタデータ） (2025-10-08T20:33:50Z)
KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文参考訳（メタデータ） (2024-10-23T21:04:24Z)
Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文参考訳（メタデータ） (2024-06-25T19:23:42Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文参考訳（メタデータ） (2024-05-21T06:48:26Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
Share What You Already Know: Cross-Language-Script Transfer and Alignment for Sentiment Detection in Code-Mixed Data [0.0]
コードスイッチングには複数の言語が混在しており、ソーシャルメディアのテキストでますます発生してきている現象である。事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。各言語でネイティブスクリプトを使用すると、事前訓練された知識のため、テキストのより良い表現が生成される。
論文参考訳（メタデータ） (2024-02-07T02:59:18Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
Efficient Urdu Caption Generation using Attention based LSTM [0.0]
ウルドゥー語はパキスタンの国語であり、パキスタン・インド亜大陸地域で話され、理解されている。我々は、ウルドゥー語に特化したシーケンスモデリング技術を用いて、注意に基づくディープラーニングモデルを開発する。提案手法をこのデータセット上で評価し,ウルドゥー語のBLEUスコア0.83を達成可能であることを示す。
論文参考訳（メタデータ） (2020-08-02T17:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。