論文の概要: Automated Multi-Language to English Machine Translation Using Generative Pre-Trained Transformers
- arxiv url: http://arxiv.org/abs/2404.14680v1
- Date: Tue, 23 Apr 2024 02:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:31:26.759927
- Title: Automated Multi-Language to English Machine Translation Using Generative Pre-Trained Transformers
- Title(参考訳): 生成事前学習変換器を用いた英語機械翻訳への多言語自動変換
- Authors: Elijah Pelofske, Vincent Urias, Lorie M. Liebrock,
- Abstract要約: 本研究では、局所生成事前学習変換(GPT)モデルを用いて、自動ゼロショットブラックボックス、文賢、多言語翻訳を英語テキストに変換する。
我々は、50の異なる非英語言語を英語に翻訳するためのHuggingface LLMリポジトリから、カスタムの微調整なしで16の異なるオープンソースGPTモデルをベンチマークした。
ベンチマークメトリクスは言語翻訳の正確さ、BLEU、GLEU、METEOR、chrFテキストの重複測定、各文翻訳のウォールクロック時間などである。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of accurate and efficient language translation is an extremely important information processing task. Machine learning enabled and automated translation that is accurate and fast is often a large topic of interest in the machine learning and data science communities. In this study, we examine using local Generative Pretrained Transformer (GPT) models to perform automated zero shot black-box, sentence wise, multi-natural-language translation into English text. We benchmark 16 different open-source GPT models, with no custom fine-tuning, from the Huggingface LLM repository for translating 50 different non-English languages into English using translated TED Talk transcripts as the reference dataset. These GPT model inference calls are performed strictly locally, on single A100 Nvidia GPUs. Benchmark metrics that are reported are language translation accuracy, using BLEU, GLEU, METEOR, and chrF text overlap measures, and wall-clock time for each sentence translation. The best overall performing GPT model for translating into English text for the BLEU metric is ReMM-v2-L2-13B with a mean score across all tested languages of $0.152$, for the GLEU metric is ReMM-v2-L2-13B with a mean score across all tested languages of $0.256$, for the chrF metric is Llama2-chat-AYT-13B with a mean score across all tested languages of $0.448$, and for the METEOR metric is ReMM-v2-L2-13B with a mean score across all tested languages of $0.438$.
- Abstract(参考訳): 正確かつ効率的な言語翻訳のタスクは、非常に重要な情報処理タスクである。
機械学習が有効で、正確で高速な自動翻訳は、機械学習とデータサイエンスコミュニティにとって大きな関心事であることが多い。
本研究では、局所生成事前学習変換(GPT)モデルを用いて、自動ゼロショットブラックボックス、文賢く、多言語による英語テキストへの翻訳を行う。
我々は、Huggingface LLMリポジトリから16種類のオープンソースGPTモデルをベンチマークし、参照データセットとしてTED Talk transcriptsを翻訳し、50の非英語言語を英語に翻訳する。
これらのGPTモデル推論コールは、1つのA100 Nvidia GPU上で厳密にローカルに実行される。
ベンチマークメトリクスは言語翻訳の正確さ、BLEU、GLEU、METEOR、chrFテキストの重複測定、各文翻訳のウォールクロック時間などである。
BLEUメトリックの英語テキストに翻訳するための最も優れた総合的なGPTモデルは、平均スコアが0.152$のReMM-v2-L2-13B、GLEUメトリックが平均スコアが0.256$のReMM-v2-L2-13B、chrFメトリックが平均スコアが0.448$のLlama2-chat-AYT-13B、METEORメトリックが平均スコアが0.438$のReMM-v2-L2-13Bである。
関連論文リスト
- Language-Informed Beam Search Decoding for Multilingual Machine Translation [24.044315362087687]
言語インフォームドビームサーチ(Language-informed Beam Search, LiBS)は、市販の言語識別(LiD)モデルをビームサーチデコードに組み込んだ汎用デコードアルゴリズムである。
その結果、提案したLiBSアルゴリズムは平均で+1.1 BLEUと+0.9 BLEUをWMTおよびOPUSデータセットで改善し、ターゲット外レートを22.9%から7.7%、65.8%から25.3%に削減した。
論文 参考訳(メタデータ) (2024-08-11T09:57:46Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - The VolcTrans System for WMT22 Multilingual Machine Translation Task [24.300726424411007]
VolcTransは、複数のソースのデータに基づいてトレーニングされたトランスフォーマーベースの多言語モデルである。
一連のルールはバイリンガルテキストとモノリンガルテキストの両方をきれいにする。
このシステムは17.3 BLEU、21.9 spBLEU、41.9 chrF2++を平均して達成している。
論文 参考訳(メタデータ) (2022-10-20T21:18:03Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Multilingual Translation via Grafting Pre-trained Language Models [12.787188625198459]
本稿では,機械翻訳のための事前学習言語モデルを個別に移植するGraformerを提案する。
事前学習のための単言語データと移植訓練のための並列データを用いて,両タイプのデータの利用を最大限に活用する。
論文 参考訳(メタデータ) (2021-09-11T10:57:45Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。