論文の概要: On Optimal Transformer Depth for Low-Resource Language Translation
- arxiv url: http://arxiv.org/abs/2004.04418v2
- Date: Tue, 14 Apr 2020 19:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:00:15.569052
- Title: On Optimal Transformer Depth for Low-Resource Language Translation
- Title(参考訳): 低リソース言語翻訳のための最適変換器深さについて
- Authors: Elan van Biljon, Arnu Pretorius and Julia Kreutzer
- Abstract要約: 変圧器モデルでは,低変圧深度でよく(かつよく)機能することを示す。
非常に大規模なモデルを使用する分野における現在の傾向は、低リソース言語では有害であることがわかった。
- 参考スコア(独自算出の注目度): 14.879321342968256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown great promise as an approach to Neural Machine
Translation (NMT) for low-resource languages. However, at the same time,
transformer models remain difficult to optimize and require careful tuning of
hyper-parameters to be useful in this setting. Many NMT toolkits come with a
set of default hyper-parameters, which researchers and practitioners often
adopt for the sake of convenience and avoiding tuning. These configurations,
however, have been optimized for large-scale machine translation data sets with
several millions of parallel sentences for European languages like English and
French. In this work, we find that the current trend in the field to use very
large models is detrimental for low-resource languages, since it makes training
more difficult and hurts overall performance, confirming previous observations.
We see our work as complementary to the Masakhane project ("Masakhane" means
"We Build Together" in isiZulu.) In this spirit, low-resource NMT systems are
now being built by the community who needs them the most. However, many in the
community still have very limited access to the type of computational resources
required for building extremely large models promoted by industrial research.
Therefore, by showing that transformer models perform well (and often best) at
low-to-moderate depth, we hope to convince fellow researchers to devote less
computational resources, as well as time, to exploring overly large models
during the development of these systems.
- Abstract(参考訳): トランスフォーマーは低リソース言語のためのニューラルマシン翻訳(nmt)へのアプローチとして大きな期待を示している。
しかし同時に、トランスモデルの最適化は困難であり、この設定ではハイパーパラメータの注意深いチューニングが必要である。
多くのNMTツールキットにはデフォルトのハイパーパラメータが付属しており、研究者や実践者は便利さとチューニングの回避のためにしばしば採用されている。
しかし、これらの構成は、英語やフランス語のようなヨーロッパの言語に対して数百万の並列文を持つ大規模機械翻訳データセットに最適化されている。
この研究で、非常に大きなモデルを使う分野の現在のトレンドは、トレーニングをより困難にし、全体的なパフォーマンスを損なうため、低リソース言語にとって有害であることがわかった。
私たちはマサハネプロジェクト(マサハネはイシズル語で「一緒に構築する」という意味)を補完するものとして、低リソースのnmtシステムがコミュニティによって構築されていると考えています。
しかし、コミュニティの多くは、産業研究によって推進される非常に大きなモデルを構築するのに必要な計算資源の種類に非常に限定されている。
したがって、トランスモデルが低~モデレートの深さでうまく(そしてしばしば最善)動作することを示すことによって、これらのシステムの開発において、より少ない計算資源と時間に時間を割くように、同僚の研究者に説得することを望む。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - Pointer-Generator Networks for Low-Resource Machine Translation: Don't Copy That! [13.120825574589437]
本研究では,Transformer-based neural machine translation (NMT) が高リソース環境において非常に有効であることを示す。
このモデルでは,近縁な言語対と遠縁な言語対に対する改善が示されていない。
この動作の理由に関する議論は、LR NMTのいくつかの一般的な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-03-16T16:17:47Z) - Transformers for Low-Resource Languages:Is F\'eidir Linn! [2.648836772989769]
一般に、ニューラルネットワークモデルは訓練データが不十分な言語ペアで実行されることが多い。
適切なパラメータを選択することで、パフォーマンスが大幅に向上することを示す。
Transformer最適化モデルでは,ベースラインRNNモデルと比較してBLEUスコアが7.8ポイント向上した。
論文 参考訳(メタデータ) (2024-03-04T12:29:59Z) - Enhancing Neural Machine Translation of Low-Resource Languages: Corpus
Development, Human Evaluation and Explainable AI Architectures [0.0]
Transformerアーキテクチャは、特に高リソースの言語ペアにおいて、ゴールドスタンダードとして際立っている。
低リソース言語のための並列データセットの不足は、機械翻訳開発を妨げる可能性がある。
この論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイのために合理化された2つのオープンソースアプリケーションであるAdaptNMTとAdaptMLLMを紹介している。
論文 参考訳(メタデータ) (2024-03-03T18:08:30Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Towards Reinforcement Learning for Pivot-based Neural Machine
Translation with Non-autoregressive Transformer [49.897891031932545]
Pivot-based Neural Machine Translation (NMT) は、低リソースのセットアップで一般的に使用される。
我々は、ソースターゲットデータのトレーニングを可能にするエンドツーエンドのピボットベース統合モデルを提案する。
論文 参考訳(メタデータ) (2021-09-27T14:49:35Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。