Fugu-MT 論文翻訳(概要): Context based Roman-Urdu to Urdu Script Transliteration System

論文の概要: Context based Roman-Urdu to Urdu Script Transliteration System

arxiv url: http://arxiv.org/abs/2109.14197v1
Date: Wed, 29 Sep 2021 05:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-30 14:53:49.674965
Title: Context based Roman-Urdu to Urdu Script Transliteration System
Title（参考訳）: 文脈に基づくロマン・ウルドゥーからウルドゥー文字翻訳システム
Authors: H Muhammad Shakeel, Rashid Khan, Muhammad Waheed
Abstract要約: この研究の目的は、ローマ・ウルドゥー文字からウルドゥー文字への文脈ベースの翻訳を改善することである。このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Now a day computer is necessary for human being and it is very useful in many fields like search engine, text processing, short messaging services, voice chatting and text recognition. Since last many years there are many tools and techniques that have been developed to support the writing of language script. Most of the Asian languages like Arabic, Urdu, Persian, Chains and Korean are written in Roman alphabets. Roman alphabets are the most commonly used for transliteration of languages, which have non-Latin scripts. For writing Urdu characters as an input, there are many layouts which are already exist. Mostly Urdu speaker prefer to use Roman-Urdu for different applications, because mostly user is not familiar with Urdu language keyboard. The objective of this work is to improve the context base transliteration of Roman-Urdu to Urdu script. In this paper, we propose an algorithm which effectively solve the transliteration issues. The algorithm work like, convert the encoding roman words into the words in the standard Urdu script and match it with the lexicon. If match found, then display the word in the text editor. The highest frequency words are displayed if more than one match found in the lexicon. Display the first encoded and converted instance and set it to the default if there is not a single instance of the match is found and then adjust the given ambiguous word to their desire location according to their context. The outcome of this algorithm proved the efficiency and significance as compare to other models and algorithms which work for transliteration of Raman-Urdu to Urdu on context.
Abstract（参考訳）: 現在、日々のコンピュータは人間にとって必要であり、検索エンジン、テキスト処理、ショートメッセージングサービス、音声チャット、テキスト認識など多くの分野で非常に有用である。ここ数年から、言語スクリプトの記述をサポートするために、多くのツールや技術が開発されている。アラビア語、ウルドゥー語、ペルシア語、チェイン語、韓国語といったアジアの言語のほとんどはローマ字で書かれている。ローマ字は、非ラテン文字を持つ言語の翻訳に最も一般的に用いられる。入力としてurdu文字を書くには、すでに存在する多くのレイアウトがある。 urduスピーカーは、ユーザーがurdu言語キーボードに慣れていないため、異なるアプリケーションでroman-urduを使うのを好む。本研究の目的は、roman-urdu to urduスクリプトの文脈ベースの書き起こしを改善することである。本稿では,翻訳問題を効果的に解決するアルゴリズムを提案する。このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。マッチが見つかったら、テキストエディタにワードを表示します。一番高い頻度の単語は、レキシコンに複数の一致がある場合に表示される。最初のエンコードされた変換されたインスタンスを表示し、マッチの単一のインスタンスが見つからない場合はデフォルトに設定し、そのコンテキストに応じて与えられた曖昧な単語を所望の場所に調整する。このアルゴリズムの結果、文脈上でラマン・ウルドゥをウルドゥー語に翻訳する他のモデルやアルゴリズムと比較して効率と重要性が証明された。

関連論文リスト

Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration [70.84108518476744]
我々は,スクリプトが多言語音声モデルのアクティベーション空間に線形に符号化されていることを示し,推論時にアクティベーションを変更することで,出力スクリプトを直接制御できることを示した。本稿では,Whisperの全モデルサイズにまたがる競合性能を観測し,音声認識出力のスクリプトに対するポストホック制御を実現する手法を提案する。
論文参考訳（メタデータ） (2026-01-06T10:45:04Z)
Improving Informally Romanized Language Identification [49.404145019682666]
ローマ化は、ヒンディー語やウルドゥー語など、文字の難易度に基づいて、通常容易に区別できる言語を表現している。我々は、トレーニングセットを合成する手法を改善することにより、ロマライズされたテキストの言語識別(LID)精度を向上させる。本研究では,Bhasha-Abhijnaanam 評価セットにおける20のIndic言語からのロマン化テキストに対して,最先端の LID 性能を示す。
論文参考訳（メタデータ） (2025-04-30T11:36:28Z)
Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-02T14:51:20Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文参考訳（メタデータ） (2024-06-25T19:23:42Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。 MYTEは99の言語すべてに対して短いエンコーディングを生成する。これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文参考訳（メタデータ） (2024-03-15T21:21:11Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
CALText: Contextual Attention Localization for Offline Handwritten Text [1.066048003460524]
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
論文参考訳（メタデータ） (2021-11-06T19:54:21Z)
Co-occurrences using Fasttext embeddings for word similarity tasks in Urdu [0.0]
本稿では,Urduのコーパスを構築し,複数のソースからデータを抽出・統合する。 fasttext埋め込みとN-Gramsモデルを変更して、構築されたコーパスでトレーニングできるようにします。これらのトレーニング済み埋め込みを単語の類似性タスクに使用し、その結果を既存の技術と比較しました。
論文参考訳（メタデータ） (2021-02-22T12:56:26Z)
Processing South Asian Languages Written in the Latin Script: the Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。 1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文参考訳（メタデータ） (2020-07-02T14:57:28Z)
A Clustering Framework for Lexical Normalization of Roman Urdu [10.746384310607157]
ウルドゥー語(ウルドゥー語: Urdu)は、ローマ文字で書かれたウルドゥー語の非公式な形式である。標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。ローマ・ウルドゥ・コーパスの語彙正規化のための特徴に基づくクラスタリングフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-31T20:21:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。