論文の概要: TURJUMAN: A Public Toolkit for Neural Arabic Machine Translation
- arxiv url: http://arxiv.org/abs/2206.03933v1
- Date: Fri, 27 May 2022 18:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 09:37:13.453268
- Title: TURJUMAN: A Public Toolkit for Neural Arabic Machine Translation
- Title(参考訳): TURJUMAN: ニューラルアラビア機械翻訳のための公開ツールキット
- Authors: El Moatez Billah Nagoudi, AbdelRahim Elmadany, Muhammad Abdul-Mageed
- Abstract要約: 20言語から現代標準アラビア語(MSA)への翻訳のためのニューラルネットワークTURJUMANを提案する。
TURJUMANは、最近導入されたテキストからテキストへのトランスフォーマーAraT5モデルを利用して、アラビア語にデコードする強力な能力を備えている。
- 参考スコア(独自算出の注目度): 8.9379057739817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TURJUMAN, a neural toolkit for translating from 20 languages into
Modern Standard Arabic (MSA). TURJUMAN exploits the recently-introduced
text-to-text Transformer AraT5 model, endowing it with a powerful ability to
decode into Arabic. The toolkit offers the possibility of employing a number of
diverse decoding methods, making it suited for acquiring paraphrases for the
MSA translations as an added value. To train TURJUMAN, we sample from publicly
available parallel data employing a simple semantic similarity method to ensure
data quality. This allows us to prepare and release AraOPUS-20, a new machine
translation benchmark. We publicly release our translation toolkit (TURJUMAN)
as well as our benchmark dataset (AraOPUS-20).
- Abstract(参考訳): 本稿では,20言語から現代標準アラビア語(MSA)への翻訳のためのニューラルネットワークTURJUMANを提案する。
turjumanは、最近導入されたテキストからテキストへのトランスフォーマーarat5モデルを活用し、アラビア語にデコードする強力な能力を持つ。
このツールキットは様々な復号法を採用する可能性を提供し、MSA翻訳のパラフレーズを付加価値として取得するのに適している。
TURJUMANを訓練するために,データ品質を確保するため,単純な意味的類似性手法を用いて公開されている並列データからサンプルを採取する。
これにより、新しい機械翻訳ベンチマークであるAraOPUS-20の準備とリリースが可能になります。
我々は、我々の翻訳ツールキット(TURJUMAN)とベンチマークデータセット(AraOPUS-20)を公開しています。
関連論文リスト
- A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - AraT5: Text-to-Text Transformers for Arabic Language Understanding and
Generation [6.021269454707625]
アラビア語生成のための新しいベンチマーク(ARGEN)を導入する。
アラビア語固有のテキスト・トゥ・テキスト・トランスフォーマーベースの3つのモデルを事前学習し、2つのベンチマークで評価する。
我々の新しいモデルはmT5よりも大幅に優れており、アラビア語の理解に基づいて現在最先端のアラビア語 BERT ベースのモデルである MARBERT よりも優れている。
論文 参考訳(メタデータ) (2021-08-31T02:02:10Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - NeurST: Neural Speech Translation Toolkit [13.68036533544182]
NeurSTは、ByteDance AI Labが開発したニューラルネットワーク翻訳のためのオープンソースのツールキットです。
主にエンドツーエンドの音声翻訳に焦点を当てており、高度な音声翻訳の研究や製品に簡単に使用、修正、拡張できます。
論文 参考訳(メタデータ) (2020-12-18T02:33:58Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。