論文の概要: Transliteration of Judeo-Arabic Texts into Arabic Script Using Recurrent
Neural Networks
- arxiv url: http://arxiv.org/abs/2004.11405v2
- Date: Wed, 21 Oct 2020 09:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:37:41.068573
- Title: Transliteration of Judeo-Arabic Texts into Arabic Script Using Recurrent
Neural Networks
- Title(参考訳): リカレントニューラルネットワークを用いたジュデオ・アラビア文字のアラビア文字への翻訳
- Authors: Ori Terner, Kfir Bar, Nachum Dershowitz
- Abstract要約: 我々は、ユダヤ・アラビア文字をアラビア語の文字に自動翻訳するモデルを訓練する。
我々は、リカレントニューラルネットワーク(RNN)とコネクショニスト時間分類(CTC)の損失を併用して、不平等な入出力長を扱う。
ベースラインの9.5%の文字エラーに対して改善を行い、最高の設定で2%のエラーを達成した。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We trained a model to automatically transliterate Judeo-Arabic texts into
Arabic script, enabling Arabic readers to access those writings. We employ a
recurrent neural network (RNN), combined with the connectionist temporal
classification (CTC) loss to deal with unequal input/output lengths. This
obligates adjustments in the training data to avoid input sequences that are
shorter than their corresponding outputs. We also utilize a pretraining stage
with a different loss function to improve network converge. Since only a single
source of parallel text was available for training, we take advantage of the
possibility of generating data synthetically. We train a model that has the
capability to memorize words in the output language, and that also utilizes
context for distinguishing ambiguities in the transliteration. We obtain an
improvement over the baseline 9.5% character error, achieving 2% error with our
best configuration. To measure the contribution of context to learning, we also
tested word-shuffled data, for which the error rises to 2.5%.
- Abstract(参考訳): 我々は、アラビア語のテキストを自動的にアラビア文字に翻訳するモデルを訓練した。
我々は、リカレントニューラルネットワーク(RNN)とコネクショニスト時間分類(CTC)の損失を併用して、不平等な入出力長を扱う。
これにより、トレーニングデータの調整を義務付け、対応する出力よりも短い入力シーケンスを避ける。
また,ネットワーク収束性を改善するために,異なる損失関数を持つ事前学習ステージを用いる。
並列テキストの1つのソースのみをトレーニングに利用できたので、データを合成的に生成する可能性を生かしている。
我々は、出力言語で単語を記憶する能力を持つモデルを訓練し、また、文字のあいまいさを識別するために文脈を利用する。
ベースラインの9.5%の文字エラーに対して改善を行い、最高の設定で2%のエラーを達成した。
また、学習における文脈の寄与を測定するために、単語シャッフルデータもテストし、エラーは2.5%まで上昇した。
関連論文リスト
- Prompt-based Learning for Text Readability Assessment [0.4757470449749875]
可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。
与えられた2つのテキストからより難しいテキストを区別するために、Seq2seqモデルを適用できることを実証する。
論文 参考訳(メタデータ) (2023-02-25T18:39:59Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Neural String Edit Distance [77.72325513792981]
文字列対分類とシーケンス生成のためのニューラルストリング編集距離モデルを提案する。
オリジナルの期待最大化学習編集距離アルゴリズムを微分可能な損失関数に変更します。
ひとつのフレームワークでパフォーマンスと解釈性をトレードオフできることを示します。
論文 参考訳(メタデータ) (2021-04-16T22:16:47Z) - Detecting over/under-translation errors for determining adequacy in
human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。
我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。
本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文 参考訳(メタデータ) (2021-04-01T06:06:36Z) - BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets [6.18447297698017]
本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
論文 参考訳(メタデータ) (2021-01-22T21:50:38Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。