論文の概要: An Efficient Approach for Machine Translation on Low-resource Languages: A Case Study in Vietnamese-Chinese
- arxiv url: http://arxiv.org/abs/2501.19314v1
- Date: Fri, 31 Jan 2025 17:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:13.393521
- Title: An Efficient Approach for Machine Translation on Low-resource Languages: A Case Study in Vietnamese-Chinese
- Title(参考訳): 低リソース言語における機械翻訳の効率化 : ベトナム・中国語を事例として
- Authors: Tran Ngoc Son, Nguyen Anh Tu, Nguyen Minh Tri,
- Abstract要約: ベトナム中国語などの低リソース言語で機械翻訳を行う手法を提案する。
提案手法は,多言語事前学習言語モデル(mBART)とベトナム語と中国語の単言語コーパスのパワーを利用した。
- 参考スコア(独自算出の注目度): 1.6932009464531739
- License:
- Abstract: Despite the rise of recent neural networks in machine translation, those networks do not work well if the training data is insufficient. In this paper, we proposed an approach for machine translation in low-resource languages such as Vietnamese-Chinese. Our proposed method leveraged the power of the multilingual pre-trained language model (mBART) and both Vietnamese and Chinese monolingual corpus. Firstly, we built an early bird machine translation model using the bilingual training dataset. Secondly, we used TF-IDF technique to select sentences from the monolingual corpus which are the most related to domains of the parallel dataset. Finally, the first model was used to synthesize the augmented training data from the selected monolingual corpus for the translation model. Our proposed scheme showed that it outperformed 8% compared to the transformer model. The augmented dataset also pushed the model performance.
- Abstract(参考訳): 機械翻訳における最近のニューラルネットワークの増加にもかかわらず、トレーニングデータが不十分な場合、これらのネットワークはうまく機能しない。
本稿では,ベトナム中国語などの低リソース言語における機械翻訳手法を提案する。
提案手法は,多言語事前学習言語モデル(mBART)とベトナム語と中国語の単言語コーパスのパワーを利用した。
まず,二言語学習データセットを用いた早期の鳥類機械翻訳モデルを構築した。
次に、TF-IDF法を用いて、並列データセットの領域に最も関連がある単言語コーパスから文を選択する。
最後に,第1のモデルを用いて,選択した単言語コーパスから翻訳モデルの強化学習データを合成した。
提案手法は変圧器モデルよりも8%高い性能を示した。
拡張データセットはモデルのパフォーマンスも押し上げた。
関連論文リスト
- Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Transferring Monolingual Model to Low-Resource Language: The Case of
Tigrinya [0.0]
本稿では,強力なソース言語モデルを採用するためのコスト効率のよいトランスファー学習手法を提案する。
与えられたTigrinya感情分析データセットの10k例だけで、英語のXLNetは78.88%のF1スコアを達成した。
CLSデータセット上の微調整(英: Fine-tuning)XLNetモデルでは,mBERTと比較して有望な結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。