論文の概要: Deep Transformers with Latent Depth
- arxiv url: http://arxiv.org/abs/2009.13102v2
- Date: Fri, 16 Oct 2020 03:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 20:56:49.937413
- Title: Deep Transformers with Latent Depth
- Title(参考訳): 潜伏深さを持つ深部変圧器
- Authors: Xian Li, Asa Cooper Stickland, Yuqing Tang, and Xiang Kong
- Abstract要約: Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
多言語機械翻訳のための1つの共有トランスフォーマーネットワークを学習する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 42.33955275626127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer model has achieved state-of-the-art performance in many
sequence modeling tasks. However, how to leverage model capacity with large or
variable depths is still an open challenge. We present a probabilistic
framework to automatically learn which layer(s) to use by learning the
posterior distributions of layer selection. As an extension of this framework,
we propose a novel method to train one shared Transformer network for
multilingual machine translation with different layer selection posteriors for
each language pair. The proposed method alleviates the vanishing gradient issue
and enables stable training of deep Transformers (e.g. 100 layers). We evaluate
on WMT English-German machine translation and masked language modeling tasks,
where our method outperforms existing approaches for training deeper
Transformers. Experiments on multilingual machine translation demonstrate that
this approach can effectively leverage increased model capacity and bring
universal improvement for both many-to-one and one-to-many translation with
diverse language pairs.
- Abstract(参考訳): Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
しかし、モデルキャパシティを大小さまざまな深さで活用する方法は、まだオープンな課題である。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
この枠組みの拡張として,多言語機械翻訳のための1つの共有トランスフォーマネットワークを学習する新しい手法を提案する。
提案手法は, 脱落勾配問題を緩和し, 深い変圧器(例えば100層)の安定な訓練を可能にする。
我々は、wmtの英語-ドイツ語機械翻訳とマスキング言語モデリングタスクについて評価し、より深いトランスフォーマーを訓練するための既存の手法を上回っている。
多言語機械翻訳の実験は、このアプローチがモデル容量の増大を効果的に活用し、多言語対と多言語対による多言語・多言語翻訳の両方に普遍的な改善をもたらすことを示した。
関連論文リスト
- Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。
翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文 参考訳(メタデータ) (2024-05-09T00:31:59Z) - Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Multilingual Transformer Encoders: a Word-Level Task-Agnostic Evaluation [0.6882042556551609]
一部のTransformerベースのモデルは、言語間変換学習を実行することができる。
このようなモデルによって構築された文脈化表現のアライメントを評価するための単語レベルタスク非依存手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T05:23:18Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Serial or Parallel? Plug-able Adapter for multilingual machine
translation [15.114588783601466]
多言語機械翻訳のためのデフュージョン適応を付加したトランスフォーマーモデルであるPAMを提案する。
PAMは、単語と中間表現を言語固有のものに移すための埋め込みと層アダプタで構成されている。
IWSLT、OPUS-100、WMTベンチマークの実験結果から、メソッドは強力な競合相手よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-04-16T14:58:28Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Multi-layer Representation Fusion for Neural Machine Translation [38.12309528346962]
積層層を融合する多層表現融合(MLRF)手法を提案する。
特に、スタックからより良い表現を学ぶために、3つの融合関数を設計する。
その結果、ドイツ語と英語の翻訳における新たな最先端技術が誕生した。
論文 参考訳(メタデータ) (2020-02-16T23:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。