論文の概要: Digraphie des langues ouest africaines : Latin2Ajami : un algorithme de
translitteration automatique
- arxiv url: http://arxiv.org/abs/2005.02827v1
- Date: Tue, 5 May 2020 16:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 14:06:40.756594
- Title: Digraphie des langues ouest africaines : Latin2Ajami : un algorithme de
translitteration automatique
- Title(参考訳): ラングスとアフリカ : ラテン2アジャミ : 翻訳オートマティクスのアルゴリズム
- Authors: El hadji M. Fall, El hadji M. Nguer, Bao Diop Sokhna, Mouhamadou
Khoule, Mathieu Mangeot, Mame T. Cisse
- Abstract要約: セネガルの国語は、西アフリカの国語と同様、2つのアルファベットで書かれている。
公式の命令書と完成アラビア語の文字(アジャミ)からその強さを引き出すラテン文字は広く統合されており、制度的な支援はほとんどない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The national languages of Senegal, like those of West Africa country in
general, are written with two alphabets : the Latin alphabet that draws its
strength from official decreesm and the completed Arabic script (Ajami),
widespread and well integrated, that has little institutional support. This
digraph created two worlds ignoring each other. Indeed, Ajami writing is
generally used daily by populations from Koranic schools, while writing with
the Latin alphabet is used by people from the public school. To solve this
problem, it is useful to establish transliteration tools between these two
scriptures. Preliminary work (Nguer, Bao-Diop, Fall, khoule, 2015) was
performed to locate the problems, challenges and prospects. This present work,
making it subsequently fell into this. Its objective is the study and creation
of a transliteration algorithm from latin towards Ajami.
- Abstract(参考訳): 西アフリカの国語と同様、セネガルの国語は2つのアルファベットで書かれている: 公式の命令書からその強さを引き出すラテン文字と、広く統合され、制度的な支援がほとんどないアラビア文字(アジャミ)である。
この図は互いに無視する2つの世界を生み出した。
実際、アジャミ文字はコラニ語派の人々が日常的に用いており、ラテン文字で書くことは公立学校の人々が用いている。
この問題を解決するために、これらの2つの経典間の翻訳ツールを確立することが有用である。
予備作業(nguer, bao-diop, fall, khoule, 2015)は、問題、課題、展望を特定するために行われた。
これが現在の作品となり、その後この作品へと転落した。
その目的はラテン語からアジャミへの翻訳アルゴリズムの研究と作成である。
関連論文リスト
- Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Transliterating Kurdish texts in Latin into Persian-Arabic script [0.0]
ラテン語のクルド文字をペルシア・アラビア文字に翻訳する文字を提示する。
このツールはクルド人のBLARKの一部であり、非商業的使用のために公開されている。
論文 参考訳(メタデータ) (2021-10-24T07:28:39Z) - Context based Roman-Urdu to Urdu Script Transliteration System [0.0]
この研究の目的は、ローマ・ウルドゥー文字からウルドゥー文字への文脈ベースの翻訳を改善することである。
このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。
論文 参考訳(メタデータ) (2021-09-29T05:24:55Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z) - Digraph of Senegal s local languages: issues, challenges and prospects
of their transliteration [0.0]
アジャミ文字は一般的に、コミュニケーション、ビジネス、文学(宗教文、詩文など)、伝統宗教医学などの分野で教育を受けた人々によって用いられる。
ラテン文字で書くことは、ICT(Web、辞書、Windows、Googleツール等)のローカライズ、法律文(Wolofで翻訳された商用コードや憲法)の翻訳、宗教文(Wolofで翻訳されたQuranとBible)、書籍版などに使われる。
論文 参考訳(メタデータ) (2020-05-05T16:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。