論文の概要: Extended Parallel Corpus for Amharic-English Machine Translation
- arxiv url: http://arxiv.org/abs/2104.03543v1
- Date: Thu, 8 Apr 2021 06:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:19:49.157647
- Title: Extended Parallel Corpus for Amharic-English Machine Translation
- Title(参考訳): アンハリック・イングリッシュ機械翻訳のための拡張並列コーパス
- Authors: Andargachew Mekonnen Gezmu, Andreas N\"urnberger and Tesfaye Bayu Bati
- Abstract要約: リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスを用いて,ニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the acquisition, preprocessing, segmentation, and
alignment of an Amharic-English parallel corpus. It will be useful for machine
translation of an under-resourced language, Amharic. The corpus is larger than
previously compiled corpora; it is released for research purposes. We trained
neural machine translation and phrase-based statistical machine translation
models using the corpus. In the automatic evaluation, neural machine
translation models outperform phrase-based statistical machine translation
models.
- Abstract(参考訳): 本稿では,Amharic- English parallel corpusの取得,前処理,セグメンテーション,アライメントについて述べる。
リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスは以前コンパイルされたコーパスよりも大きく、研究目的でリリースされている。
コーパスを用いてニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
自動評価では、ニューラルマシン翻訳モデルは句ベースの統計機械翻訳モデルを上回る。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Language Model is a Branch Predictor for Simultaneous Machine
Translation [73.82754138171587]
翻訳遅延を低減するため,SiMTタスクに分岐予測手法を組み込むことを提案する。
言語モデルを分岐予測器として利用し,潜在的な分岐方向を予測する。
実際のソース語が予測されたソース語から逸脱すると、実際のソース語を使用して出力を復号し、予測された出力を置き換える。
論文 参考訳(メタデータ) (2023-12-22T07:32:47Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Lexically Cohesive Neural Machine Translation with Copy Mechanism [21.43163704217968]
我々は、従来の出力からの単語のコピーを可能にするために、文脈認識型ニューラルネットワーク翻訳モデルにコピー機構を用いる。
談話翻訳のための評価データセットを用いて、日本語から英語への翻訳実験を行う。
論文 参考訳(メタデータ) (2020-10-11T08:39:02Z) - Preparation of Sentiment tagged Parallel Corpus and Testing its effect
on Machine Translation [12.447116722795899]
本稿では,英語・ベンガル語並列コーパスをタグ付けした同じ感情の調製について論じる。
翻訳モデルの出力はBLEUやTERなどの自動メトリクスを用いたベースライン翻訳モデルと比較されている。
論文 参考訳(メタデータ) (2020-07-28T09:04:47Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。