論文の概要: Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
- arxiv url: http://arxiv.org/abs/2404.13350v1
- Date: Sat, 20 Apr 2024 11:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:19:56.975384
- Title: Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
- Title(参考訳): Swa Bhasha:Sinhala翻訳へのメッセージベースシングリッシュ
- Authors: Maneesha U. Athukorala, Deshan K. Sumanathilaka,
- Abstract要約: 本研究は,翻訳の複雑さを減らし,Singlish言語の単語レベルでの文字化に着目した。
収集したデータはすべてのシンハラ文字で分析され、関連するシングリッシュパターンが生成される。
「スワバシャ」の音訳システムは、シングリッシュ語からシンハラ語へのテキスト化を行いながら、シンハラ人の体験を高める能力を持っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Transliteration provides the ability to transliterate a basic language into different languages in a computational way. Transliteration is an important technical process that has caught the attention most recently. The Sinhala transliteration has many constraints because of the insufficiency of resources in the Sinhala language. Due to these limitations, Sinhala Transliteration is highly complex and time-consuming. Therefore, the majority of the Sri Lankans uses non-formal texting language named 'Singlish' to make that process simple. This study has focused on the transliteration of the Singlish language at the word level by reducing the complication in the transliteration. A new approach of coding system has invented with the rule-based approach that can map the matching Sinhala words even without the vowels. Various typing patterns were collected by different communities for this. The collected data have analyzed with every Sinhala character and unique Singlish patterns related to them were generated. The system has introduced a newly initiated numeric coding system to use with the Singlish letters by matching with the recognized typing patterns. For the mapping process, fuzzy logic-based implementation has used. A codified dictionary has also implemented including unique numeric values. In this system, Each Romanized English letter was assigned with a unique numeric code that can construct a unique pattern for each word. The system can identify the most relevant Sinhala word that matches with the pattern of the Singlish word or it gives the most related word suggestions. For example, the word 'kiyanna,kianna, kynna, kynn, kiynna' have mapped with the accurate Sinhala word "kiyanna". These results revealed that the 'Swa Bhasha' transliteration system has the ability to enhance the Sinhala users' experience while conducting the texting in Singlish to Sinhala.
- Abstract(参考訳): Machine Transliterationは、基本的な言語を計算方法で異なる言語に翻訳する機能を提供する。
翻訳は近年注目されている重要な技術プロセスである。
シンハラ語は、シンハラ語の資源が不足しているため、多くの制約がある。
これらの制限のため、シンハラ文字の翻訳は非常に複雑で時間を要する。
したがって、スリランカの大多数は「シングリッシュ」という名前の非形式的なテキスト言語を使用して、そのプロセスをシンプルにしている。
本研究は,翻訳の複雑さを減らし,Singlish言語の単語レベルでの文字化に着目した。
母音を使わずに一致するシンハラ語をマッピングできるルールベース手法を考案した。
様々なタイプパターンが様々なコミュニティによって収集された。
収集したデータはすべてのシンハラ文字で分析され、関連するシングリッシュパターンが生成される。
このシステムは、認識されたタイピングパターンとマッチングすることで、シングリッシュ文字と併用する新しい数値符号化システムを導入した。
マッピングプロセスにはファジィロジックベースの実装が使用されている。
独自の数値を含む符号化辞書も実装されている。
このシステムでは、各ローマ字化英語の文字には、各単語に固有のパターンを構築することのできるユニークな数値コードが割り当てられた。
このシステムは、シングリッシュ語のパターンと一致する最も関連性の高いシンハラ語を識別するか、最も関連性の高い単語提案を与える。
例えば、キヤナ(kiyanna)、キヤナ(kiynna)、キヤナ(kiynna)、キヤナ(kiynna)、キヤナ(kiynna)、キヤナ(kiynna)、キヤナ(kiyanna)、キヤナ(kiynna)、キヤナ(kiyanna)、キヤナ(kiyanna)、キヤナ(kiynna)などである。
これらの結果から,「スワ・バシャ」の音訳システムは,シンリッシュ語からシンハラ語へのテキスト化を行ないながら,シンハラ人の体験を高める能力を有することが明らかとなった。
関連論文リスト
- Everyday Speech in the Indian Subcontinent [5.831621284626478]
共通ラベルセットは、多言語合成のためのEnd to End (E2E)フレームワークで必要とされる大きな語彙単位の問題に対処するために開発された。
本稿では,音声合成における新たな知見を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:48:36Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - English-to-Chinese Transliteration with Phonetic Back-transliteration [0.9281671380673306]
音素の類似性に基づいて、名前付きエンティティを言語から別の言語に翻訳するタスクである。
本研究では,2つの方法で音声情報をニューラルネットワークに組み込む。
私たちの実験には3つの言語対と6つの方向、すなわち英語から中国語、ヘブライ語、タイ語までが含まれる。
論文 参考訳(メタデータ) (2021-12-20T03:29:28Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Evaluating Input Representation for Language Identification in
Hindi-English Code Mixed Text [4.4904382374090765]
コードミックステキストは複数の言語で書かれたテキストからなる。
人は自然に現地の言語と英語のようなグローバルな言語を組み合わせる傾向がある。
本研究では,ヒンディー語と英語の混成テキストのコード混成文における言語識別に着目した。
論文 参考訳(メタデータ) (2020-11-23T08:08:09Z) - Neural Compound-Word (Sandhi) Generation and Splitting in Sanskrit
Language [0.8258451067861933]
本論文では,サンスクリット語における単語合成の過程と分割に対するニューラルネットワークに基づくアプローチについて述べる。
本稿では,近代的な深層学習手法を用いて,問題をシーケンス予測タスクとして定式化する方法を提案する。
最初の完全データ駆動技術である我々のモデルは、複数の標準データセット上の既存の手法よりも精度が良いことを実証する。
論文 参考訳(メタデータ) (2020-10-24T18:02:40Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Detect Language of Transliterated Texts [0.0]
他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。
特徴抽出のための言語識別システム(LID)を提案する。
単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。
論文 参考訳(メタデータ) (2020-04-26T10:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。