論文の概要: Graphemic Normalization of the Perso-Arabic Script
- arxiv url: http://arxiv.org/abs/2210.12273v1
- Date: Fri, 21 Oct 2022 21:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:51:43.683207
- Title: Graphemic Normalization of the Perso-Arabic Script
- Title(参考訳): ペルソアラビア文字のグラフ化
- Authors: Raiomond Doctor and Alexander Gutkin and Cibu Johny and Brian Roark
and Richard Sproat
- Abstract要約: 本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
- 参考スコア(独自算出の注目度): 67.31374614549237
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Since its original appearance in 1991, the Perso-Arabic script representation
in Unicode has grown from 169 to over 440 atomic isolated characters spread
over several code pages representing standard letters, various diacritics and
punctuation for the original Arabic and numerous other regional orthographic
traditions. This paper documents the challenges that Perso-Arabic presents
beyond the best-documented languages, such as Arabic and Persian, building on
earlier work by the expert community. We particularly focus on the situation in
natural language processing (NLP), which is affected by multiple, often
neglected, issues such as the use of visually ambiguous yet canonically
nonequivalent letters and the mixing of letters from different orthographies.
Among the contributing conflating factors are the lack of input methods, the
instability of modern orthographies, insufficient literacy, and loss or lack of
orthographic tradition. We evaluate the effects of script normalization on
eight languages from diverse language families in the Perso-Arabic script
diaspora on machine translation and statistical language modeling tasks. Our
results indicate statistically significant improvements in performance in most
conditions for all the languages considered when normalization is applied. We
argue that better understanding and representation of Perso-Arabic script
variation within regional orthographic traditions, where those are present, is
crucial for further progress of modern computational NLP techniques especially
for languages with a paucity of resources.
- Abstract(参考訳): 1991年の初登場以来、unicodeのペルソ・アラビア語の文字表現は169から440以上の分離された文字に成長し、標準文字、様々なダイアクリティカルス、原アラビア語やその他の多くの地域の正書法の伝統を表すコードページに広がった。
本稿では,ペルソ・アラビア語がアラビア語やペルシア語などの最良文書言語を超えて提示される課題を,専門家コミュニティによる先行研究に基づいて文書化する。
特に自然言語処理(nlp)の状況に焦点をあて、視覚的に曖昧で標準的でない文字の使用や、異なる正書法からの文字の混合など、しばしば無視される複数の問題に影響を受けている。
寄与する混乱要因には、入力方法の欠如、現代の正書法の不安定さ、識字力の欠如、正書法の伝統の欠如などがある。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
その結果,正規化が適用された場合のすべての言語に対して,ほとんどの条件において,統計的に有意な性能向上が認められた。
地域正書法におけるペルソ・アラビア文字のより良い理解と表現は、特に資源の多様さを持つ言語において、現代計算NLP技術のさらなる進歩に欠かせないものであると論じる。
関連論文リスト
- HATFormer: Historic Handwritten Arabic Text Recognition with Transformers [6.3660090769559945]
アラビア文字のデータセットは英語に比べて小さく、一般化可能なアラビアHTRモデルを訓練することは困難である。
本稿では,HATFormerを提案する。HATFormerはトランスフォーマーをベースとしたエンコーダデコーダアーキテクチャで,最先端のHTRモデルに基づいている。
我々の研究は、複雑な言語固有の課題を持つ低リソース言語に英語のHTRメソッドを適用する可能性を示している。
論文 参考訳(メタデータ) (2024-10-03T03:43:29Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Script Normalization for Unconventional Writing of Under-Resourced
Languages in Bilingual Communities [36.578851892373365]
ソーシャルメディアは言語的に表現されていないコミュニティに、彼らの母国語でコンテンツを制作する素晴らしい機会を与えてきた。
本稿では、主にペルソ・アラビア文字で書かれたいくつかの言語に対するスクリプト正規化の問題に対処する。
各種ノイズレベルの合成データと変圧器モデルを用いて, この問題を効果的に再現できることを実証した。
論文 参考訳(メタデータ) (2023-05-25T18:18:42Z) - PALI: A Language Identification Benchmark for Perso-Arabic Scripts [30.99179028187252]
本稿ではペルソ・アラビア文字を用いた言語検出の課題について述べる。
文を言語に分類するために、教師付きテクニックのセットを使用します。
また,しばしば混同される言語群を対象とする階層モデルを提案する。
論文 参考訳(メタデータ) (2023-04-03T19:40:14Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。