論文の概要: Examining Scaling and Transfer of Language Model Architectures for
Machine Translation
- arxiv url: http://arxiv.org/abs/2202.00528v2
- Date: Wed, 2 Feb 2022 10:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 12:08:51.283548
- Title: Examining Scaling and Transfer of Language Model Architectures for
Machine Translation
- Title(参考訳): 機械翻訳のための言語モデルアーキテクチャのスケーリングと転送の検討
- Authors: Biao Zhang, Behrooz Ghorbani, Ankur Bapna, Yong Cheng, Xavier Garcia,
Jonathan Shen, Orhan Firat
- Abstract要約: 言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
- 参考スコア(独自算出の注目度): 51.69212730675345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language understanding and generation models follow one of the two
dominant architectural paradigms: language models (LMs) that process
concatenated sequences in a single stack of layers, and encoder-decoder models
(EncDec) that utilize separate layer stacks for input and output processing. In
machine translation, EncDec has long been the favoured approach, but with few
studies investigating the performance of LMs. In this work, we thoroughly
examine the role of several architectural design choices on the performance of
LMs on bilingual, (massively) multilingual and zero-shot translation tasks,
under systematic variations of data conditions and model sizes. Our results
show that: (i) Different LMs have different scaling properties, where
architectural differences often have a significant impact on model performance
at small scales, but the performance gap narrows as the number of parameters
increases, (ii) Several design choices, including causal masking and
language-modeling objectives for the source sequence, have detrimental effects
on translation quality, and (iii) When paired with full-visible masking for
source sequences, LMs could perform on par with EncDec on supervised bilingual
and multilingual translation tasks, and improve greatly on zero-shot directions
by facilitating the reduction of off-target translations.
- Abstract(参考訳): 自然言語の理解と生成モデルは、2つの主要なアーキテクチャパラダイムの1つである: 言語モデル(LM)は1つのレイヤで連結シーケンスを処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
本研究では,多言語・多言語・ゼロショット翻訳タスクにおけるLMの性能に対するアーキテクチャ設計選択の役割を,データ条件とモデルサイズを体系的に変化させることで,徹底的に検討する。
結果はこう示しています
(i)異なるLMは異なるスケーリング特性を持ち、アーキテクチャの違いは小さなスケールでのモデル性能に大きな影響を与えることが多いが、パラメータの数が増えるにつれて性能差は狭まる。
(二 ソースシーケンスの因果マスキング及び言語モデル目的を含むいくつかの設計選択が翻訳品質に有害な影響を及ぼすこと。)
三 ソースシーケンスのフル可視マスキングと組み合わせたときは、教師付きバイリンガルおよび多言語翻訳タスクにおいてEncDecと同等に動作し、オフターゲット翻訳の削減を容易にし、ゼロショット方向を大幅に改善することができる。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T16:40:33Z) - Evaluating the Capability of Large-scale Language Models on Chinese
Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文 参考訳(メタデータ) (2023-07-08T13:10:59Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。