論文の概要: Heterogeneous Encoders Scaling In The Transformer For Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2312.15872v1
- Date: Tue, 26 Dec 2023 03:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:54:06.969878
- Title: Heterogeneous Encoders Scaling In The Transformer For Neural Machine
Translation
- Title(参考訳): ニューラルマシン変換用トランスフォーマにおける異種エンコーダのスケーリング
- Authors: Jia Cheng Hu, Roberto Cavicchioli, Giulia Berardinelli, Alessandro
Capotondi
- Abstract要約: ヘテロジニアス手法の統合の有効性について検討する。
単純な組み合わせ戦略と性能駆動型シナジー基準に基づいて,マルチエンコーダ変換器を設計した。
その結果,提案手法は,さまざまな言語やデータセットサイズにまたがる翻訳の質を向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 47.82947878753809
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although the Transformer is currently the best-performing architecture in the
homogeneous configuration (self-attention only) in Neural Machine Translation,
many State-of-the-Art models in Natural Language Processing are made of a
combination of different Deep Learning approaches. However, these models often
focus on combining a couple of techniques only and it is unclear why some
methods are chosen over others. In this work, we investigate the effectiveness
of integrating an increasing number of heterogeneous methods. Based on a simple
combination strategy and performance-driven synergy criteria, we designed the
Multi-Encoder Transformer, which consists of up to five diverse encoders.
Results showcased that our approach can improve the quality of the translation
across a variety of languages and dataset sizes and it is particularly
effective in low-resource languages where we observed a maximum increase of
7.16 BLEU compared to the single-encoder model.
- Abstract(参考訳): トランスフォーマーは現在、ニューラルネットワーク翻訳における均質な構成(自己認識のみ)において最も優れたアーキテクチャであるが、自然言語処理における最先端のモデルの多くは、異なるディープラーニングアプローチの組み合わせで作られている。
しかし、これらのモデルはしばしばいくつかのテクニックのみを組み合わせることに焦点を合わせており、なぜ他の手法が選択されるのかは定かではない。
本研究では,多種多様な手法を統合することの有効性について検討する。
単純な組み合わせ戦略とパフォーマンス駆動のシナジー基準に基づいて,最大5種類のエンコーダで構成されるマルチエンコーダトランスを設計した。
その結果, 単一エンコーダモデルと比較して7.16 BLEUの最大増加が観測された低リソース言語では, 様々な言語やデータセットサイズでの翻訳精度の向上が期待できることがわかった。
関連論文リスト
- Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Multi-Encoder Learning and Stream Fusion for Transformer-Based
End-to-End Automatic Speech Recognition [30.941564693248512]
トランスと呼ばれるオールアテンテンション型エンコーダデコーダアーキテクチャの様々な融合技術について検討する。
トレーニング中にのみ2つのエンコーダデコーダマルチヘッドアテンション出力の重み付き組み合わせを実行する新しいマルチエンコーダ学習方法を紹介します。
ウォールストリートジャーナルのトランスベースモデルの最先端のパフォーマンスを実現し、現在のベンチマークアプローチと比較して19%のWER削減を実現しました。
論文 参考訳(メタデータ) (2021-03-31T21:07:43Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文 参考訳(メタデータ) (2020-10-21T03:41:49Z) - Efficient Inference For Neural Machine Translation [3.0338337603465013]
大規模トランスフォーマーモデルは、ニューラルマシン翻訳の最先端の結果を得た。
翻訳品質を犠牲にすることなく、推論速度を最適化する既知の手法の最適組み合わせを探索する。
論文 参考訳(メタデータ) (2020-10-06T01:21:11Z) - Deep Transformers with Latent Depth [42.33955275626127]
Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
多言語機械翻訳のための1つの共有トランスフォーマーネットワークを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T07:13:23Z) - Enriching the Transformer with Linguistic Factors for Low-Resource
Machine Translation [2.2344764434954256]
本研究では,現在最先端のニューラルマシン翻訳アーキテクチャであるTransformerを提案する。
特に,提案するFactered Transformerは,機械翻訳システムに付加的な知識を挿入する言語的要因を用いている。
IWSLTドイツ語-英語タスクにおけるベースライン変換器の0.8BLEUの改善を示す。
論文 参考訳(メタデータ) (2020-04-17T03:40:13Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。