論文の概要: Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data
- arxiv url: http://arxiv.org/abs/2407.03145v1
- Date: Wed, 3 Jul 2024 14:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:56:35.286649
- Title: Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data
- Title(参考訳): 並列データに基づく連続的事前学習による大規模言語モデルの翻訳精度向上
- Authors: Minato Kondo, Takehito Utsuro, Masaaki Nagata,
- Abstract要約: 本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
- 参考スコア(独自算出の注目度): 13.587157318352869
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we propose a two-phase training approach where pre-trained large language models are continually pre-trained on parallel data and then supervised fine-tuned with a small amount of high-quality parallel data. To investigate the effectiveness of our proposed approach, we conducted continual pre-training with a 3.8B-parameter model and parallel data across eight different formats. We evaluate these methods on thirteen test sets for Japanese-to-English and English-to-Japanese translation. The results demonstrate that when utilizing parallel data in continual pre-training, it is essential to alternate between source and target sentences. Additionally, we demonstrated that the translation accuracy improves only for translation directions where the order of source and target sentences aligns between continual pre-training data and inference. In addition, we demonstrate that the LLM-based translation model is more robust in translating spoken language and achieves higher accuracy with less training data compared to supervised encoder-decoder models. We also show that the highest accuracy is achieved when the data for continual pre-training consists of interleaved source and target sentences and when tags are added to the source sentences.
- Abstract(参考訳): 本稿では,事前学習された大規模言語モデルを並列データ上で継続的に事前学習し,少量の高品質並列データを用いて微調整を行う2段階学習手法を提案する。
提案手法の有効性を検討するために,3.8Bパラメータモデルと8つの異なるフォーマットの並列データを用いた連続事前学習を行った。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
その結果、連続事前学習において並列データを利用する場合、ソースとターゲットの文を交互に扱うことが不可欠であることが示唆された。
さらに、ソースとターゲット文の順序が連続的な事前学習データと推論とを一致させる翻訳方向のみにおいて、翻訳精度が向上することが実証された。
さらに,LLMに基づく翻訳モデルは,音声翻訳においてより堅牢であり,教師付きエンコーダ・デコーダモデルと比較して訓練データが少ないほど精度が高いことを示す。
また、継続事前学習のためのデータがインターリーブされたソースとターゲット文で構成されており、タグがソース文に追加されている場合にも高い精度が得られることを示す。
関連論文リスト
- On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。
モデルが生成した並列データでさえ、下流のタスクに役立ちます。
以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T11:23:04Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Constrained Density Matching and Modeling for Cross-lingual Alignment of
Contextualized Representations [27.74320705109685]
我々は,正規化フローによって駆動されるReal-NVPとGAN-Real-NVPという,教師付きおよび教師なしの密度ベースアプローチを導入し,アライメントを行う。
実験では、6つの言語対、合成データ、4つのNLPタスクで評価された16のアライメントについて検討した。
論文 参考訳(メタデータ) (2022-01-31T18:41:28Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。