論文の概要: Digraph of Senegal s local languages: issues, challenges and prospects
of their transliteration
- arxiv url: http://arxiv.org/abs/2005.02325v1
- Date: Tue, 5 May 2020 16:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 14:08:30.741982
- Title: Digraph of Senegal s local languages: issues, challenges and prospects
of their transliteration
- Title(参考訳): セネガルの地方言語図--その翻訳の課題・課題・展望
- Authors: Elhadji Mamadou Nguer, Diop Sokhna Bao, Yacoub Ahmed Fall, Mouhamadou
Khoule
- Abstract要約: アジャミ文字は一般的に、コミュニケーション、ビジネス、文学(宗教文、詩文など)、伝統宗教医学などの分野で教育を受けた人々によって用いられる。
ラテン文字で書くことは、ICT(Web、辞書、Windows、Googleツール等)のローカライズ、法律文(Wolofで翻訳された商用コードや憲法)の翻訳、宗教文(Wolofで翻訳されたQuranとBible)、書籍版などに使われる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The local languages in Senegal, like those of West African countries in
general, are written based on two alphabets: supplemented Arabic alphabet
(called Ajami) and Latin alphabet. Each writing has its own applications. Ajami
writing is generally used by people educated in Koranic schools for
communication, business, literature (religious texts, poetry, etc.),
traditional religious medicine, etc. Writing with Latin characters is used for
localization of ICT (Web, dictionaries, Windows and Google tools translated in
Wolof, etc.), the translation of legal texts (commercial code and constitution
translated in Wolof) and religious ones (Quran and Bible in Wolof), book
edition, etc. To facilitate both populations general access to knowledge, it is
useful to set up transliteration tools between these two scriptures. This work
falls within the framework of the implementation of project for a collaborative
online dictionary Wolof (Nguer E. M., Khoule M, Thiam M. N., Mbaye B. T.,
Thiare O., Cisse M. T., Mangeot M. 2014), which will involve people using Ajami
writing. Our goal will consist, on the one hand in raising the issues related
to the transliteration and the challenges that this will raise, and on the
other one, presenting the perspectives.
- Abstract(参考訳): セネガルの地方言語は、西アフリカ諸国の言語と同様に、補充アラビア語アルファベット(アジャミ)とラテンアルファベットの2つのアルファベットに基づいて書かれている。
それぞれの著作には独自の応用がある。
アジャミ文字は一般的に、コミュニケーション、ビジネス、文学(宗教文、詩文など)、伝統宗教医学などの分野で教育を受けた人々によって用いられる。
ラテン文字で書くことは、ICT(Web、辞書、Windows、Googleのツールなど)のローカライズ、法律文(Wolofで翻訳された商用コードや憲法)の翻訳、宗教文(Wolofで翻訳されたQuranとBible)、書籍版などに使われる。
両集団の知識への一般アクセスを促進するため、これら2つの経典間で翻訳ツールを設置することが有用である。
この作業は、協力的なオンライン辞書Wolof(Nguer E. M., Khoule M, Thiam M. N., Mbaye B. T., Thiare O., Cisse M. T., Mangeot M. 2014)のプロジェクト実装のフレームワークに含まれる。
私たちのゴールは、翻訳に関する問題と、それが提起する課題を提起することと、その一方で、視点を提示することにあります。
関連論文リスト
- SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [66.79173000135717]
本研究は、カンナダ語とマラティ語という2つのインドの言語教育に適用する。
我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然なテキストコーパスから記述を抽出する。
我々は,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業の準備や学習者評価に利用できる可能性を見出した。
論文 参考訳(メタデータ) (2023-10-27T18:17:29Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written
in Latin Script [0.05833117322405446]
我々は、YouTubeコメントのコーパスで生成された単語埋め込みモデルの強力さを利用する。
我々は、マノルムと呼ぶ正規化辞書を構築した。
論文 参考訳(メタデータ) (2022-06-18T10:17:46Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Towards a parallel corpus of Portuguese and the Bantu language Emakhuwa
of Mozambique [4.060731229044571]
モザンビーク語で話されているエマクフワ語は、ほとんどのアフリカ語言語の低リソース言語である。
本稿では,Emakhuwa-Portugueseパラレルコーパスの作成について述べる。
データセットには47,415文のペアがあり、エマクワの699,976ワードトークンとポルトガル語の877,595ワードトークンが含まれている。
論文 参考訳(メタデータ) (2021-04-12T18:31:56Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z) - Digraphie des langues ouest africaines : Latin2Ajami : un algorithme de
translitteration automatique [0.0]
セネガルの国語は、西アフリカの国語と同様、2つのアルファベットで書かれている。
公式の命令書と完成アラビア語の文字(アジャミ)からその強さを引き出すラテン文字は広く統合されており、制度的な支援はほとんどない。
論文 参考訳(メタデータ) (2020-05-05T16:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。