論文の概要: English-Twi Parallel Corpus for Machine Translation
- arxiv url: http://arxiv.org/abs/2103.15625v1
- Date: Mon, 29 Mar 2021 14:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:26:29.236617
- Title: English-Twi Parallel Corpus for Machine Translation
- Title(参考訳): 機械翻訳のための英語-twi並列コーパス
- Authors: Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi,
Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel
Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante
Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin
Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo,
Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel,
Anokye Acheampong Amponsah, James Ben Hayfron-Acquah
- Abstract要約: 25,421文ペアの英語とAkuapem Twiのための並列機械翻訳トレーニングコーパスを紹介します。
Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母語話者が必要に応じて検証・修正した。
さらに、下流の自然言語処理(NLP)タスクの評価セットとして、697の高品質のクラウドソース文が用意されています。
- 参考スコア(独自算出の注目度): 0.0061423327574940114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a parallel machine translation training corpus for English and
Akuapem Twi of 25,421 sentence pairs. We used a transformer-based translator to
generate initial translations in Akuapem Twi, which were later verified and
corrected where necessary by native speakers to eliminate any occurrence of
translationese. In addition, 697 higher quality crowd-sourced sentences are
provided for use as an evaluation set for downstream Natural Language
Processing (NLP) tasks. The typical use case for the larger human-verified
dataset is for further training of machine translation models in Akuapem Twi.
The higher quality 697 crowd-sourced dataset is recommended as a testing
dataset for machine translation of English to Twi and Twi to English models.
Furthermore, the Twi part of the crowd-sourced data may also be used for other
tasks, such as representation learning, classification, etc. We fine-tune the
transformer translation model on the training corpus and report benchmarks on
the crowd-sourced test set.
- Abstract(参考訳): 本稿では,25,421文対のAkuapem Twiと英語の並列機械翻訳学習コーパスを提案する。
Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母国語話者が翻訳文の出現を除去するために必要に応じて検証・修正した。
また、下流自然言語処理(NLP)タスクの評価セットとして、697の高品質なクラウドソース文が提供されている。
より大きな人間検証データセットの典型的なユースケースは、akapem twiの機械翻訳モデルのさらなるトレーニングである。
高品質な697クラウドソースデータセットは、twiとtwiから英語モデルへの機械翻訳のためのテストデータセットとして推奨されている。
さらに、クラウドソースされたデータのTwi部分は、表現学習や分類など、他のタスクにも使用することができる。
トレーニングコーパスのトランスフォーマー翻訳モデルを微調整し,クラウドソーステストセットのベンチマークを報告する。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。