論文の概要: An Evaluation of Persian-English Machine Translation Datasets with
Transformers
- arxiv url: http://arxiv.org/abs/2302.00321v1
- Date: Wed, 1 Feb 2023 08:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:15:39.568221
- Title: An Evaluation of Persian-English Machine Translation Datasets with
Transformers
- Title(参考訳): トランスフォーマーを用いたペルシア英語機械翻訳データセットの評価
- Authors: Amir Sartipi, Meghdad Dehghan, Afsaneh Fatemi
- Abstract要約: この研究はペルシア語と英語の翻訳に使われた最もポピュラーで価値のある平行コーパスを収集し分析した。
我々は、各データセット上で2つの最新アテンションベースセq2seqモデルを微調整し、評価した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, many researchers are focusing their attention on the subject of
machine translation (MT). However, Persian machine translation has remained
unexplored despite a vast amount of research being conducted in languages with
high resources, such as English. Moreover, while a substantial amount of
research has been undertaken in statistical machine translation for some
datasets in Persian, there is currently no standard baseline for
transformer-based text2text models on each corpus. This study collected and
analysed the most popular and valuable parallel corpora, which were used for
Persian-English translation. Furthermore, we fine-tuned and evaluated two
state-of-the-art attention-based seq2seq models on each dataset separately (48
results). We hope this paper will assist researchers in comparing their Persian
to English and vice versa machine translation results to a standard baseline.
- Abstract(参考訳): 現在、多くの研究者が機械翻訳(mt)の主題に注目している。
しかし、ペルシア語の機械翻訳は、英語などの高い資源を持つ言語で大量の研究が行われているにもかかわらず、まだ探索されていない。
さらに、ペルシアのいくつかのデータセットの統計機械翻訳においてかなりの研究が行われているが、現在各コーパスにトランスフォーマーベースのtext2textモデルの標準ベースラインは存在しない。
この研究はペルシア語と英語の翻訳に使われた最もポピュラーで価値のある平行コーパスを収集し分析した。
さらに,各データセットについて,最先端の注意に基づく2つのseq2seqモデルを個別に微調整し,評価した(48。
この論文は、ペルシア語と英語を比較し、機械翻訳の結果を標準ベースラインにすることを支援することを願っている。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents [12.493662336994106]
学術領域における4つの異なる言語に対する抽象的言語間要約データセットを提案する。
我々は、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語で要約を生成するモデルを訓練し、評価する。
論文 参考訳(メタデータ) (2022-05-30T12:31:28Z) - A Large-Scale Study of Machine Translation in the Turkic Languages [7.3458368273762815]
ニューラルマシン翻訳(NMT)の最近の進歩は、機械翻訳システムの品質を、競争力のあるシステムを構築するために広く採用されつつあるところまで押し上げている。
しかし、まだNMTのメリットを享受できていない言語はたくさんあります。
本稿では,テュルク語族におけるMTの実践的応用に関する,最初の大規模ケーススタディを提供する。
論文 参考訳(メタデータ) (2021-09-09T23:56:30Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z) - Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech [5.609443065827995]
非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
論文 参考訳(メタデータ) (2020-04-05T02:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。