論文の概要: Sub-Word Alignment Is Still Useful: A Vest-Pocket Method for Enhancing
Low-Resource Machine Translation
- arxiv url: http://arxiv.org/abs/2205.04067v1
- Date: Mon, 9 May 2022 06:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 15:02:04.918061
- Title: Sub-Word Alignment Is Still Useful: A Vest-Pocket Method for Enhancing
Low-Resource Machine Translation
- Title(参考訳): サブワードアライメントはまだ有用である:低リソース機械翻訳強化のためのvest-pocket法
- Authors: Minhan Xu, Yu Hong
- Abstract要約: 我々は,親子間移動学習法を拡張するために,アライメントサブワード間の埋め込み重複を利用する。
我々は、My-En、Id-En、Tr-Enの翻訳シナリオのベンチマークデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 4.809907063232602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We leverage embedding duplication between aligned sub-words to extend the
Parent-Child transfer learning method, so as to improve low-resource machine
translation. We conduct experiments on benchmark datasets of My-En, Id-En and
Tr-En translation scenarios. The test results show that our method produces
substantial improvements, achieving the BLEU scores of 22.5, 28.0 and 18.1
respectively. In addition, the method is computationally efficient which
reduces the consumption of training time by 63.8%, reaching the duration of 1.6
hours when training on a Tesla 16GB P100 GPU. All the models and source codes
in the experiments will be made publicly available to support reproducible
research.
- Abstract(参考訳): 階層化サブワード間の埋め込み重複を利用して、親子変換学習法を拡張し、低リソース機械翻訳を改善する。
我々はMy-En、Id-En、Tr-Enの翻訳シナリオのベンチマークデータセットで実験を行う。
その結果, BLEUスコアは22.5, 28.0, 18.1であった。
さらに、この方法は、Tesla 16GB P100 GPUでのトレーニングにおいて、トレーニング時間を63.8%削減し、1.6時間に達する計算効率がよい。
実験中のすべてのモデルとソースコードは、再現可能な研究をサポートするために公開されます。
関連論文リスト
- Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Efficient Fine-Tuning of Compressed Language Models with Learners [12.768368718187428]
本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-08-03T13:42:30Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Exploiting Curriculum Learning in Unsupervised Neural Machine
Translation [28.75229367700697]
複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。
WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法はより高速な収束速度で一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2021-09-23T07:18:06Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Cross-lingual Retrieval for Iterative Self-Supervised Training [66.3329263451598]
言語間のアライメントは、Seq2seqモデルを、自身のエンコーダ出力を用いてマイニングされた文対上で訓練することでさらに改善することができる。
我々は,反復型自己教師型訓練のための言語間検索という新しい手法を開発した。
論文 参考訳(メタデータ) (2020-06-16T21:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。