論文の概要: Scalable Transformers for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2106.02242v1
- Date: Fri, 4 Jun 2021 04:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:09:26.776993
- Title: Scalable Transformers for Neural Machine Translation
- Title(参考訳): ニューラルマシン変換のためのスケーラブルトランスフォーマー
- Authors: Peng Gao, Shijie Geng, Xiaogang Wang, Jifeng Dai, Hongsheng Li
- Abstract要約: トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
- 参考スコア(独自算出の注目度): 86.4530299266897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has been widely adopted in Neural Machine Translation (NMT)
because of its large capacity and parallel training of sequence generation.
However, the deployment of Transformer is challenging because different
scenarios require models of different complexities and scales. Naively training
multiple Transformers is redundant in terms of both computation and memory. In
this paper, we propose a novel scalable Transformers, which naturally contains
sub-Transformers of different scales and have shared parameters. Each
sub-Transformer can be easily obtained by cropping the parameters of the
largest Transformer. A three-stage training scheme is proposed to tackle the
difficulty of training the scalable Transformers, which introduces additional
supervisions from word-level and sequence-level self-distillation. Extensive
experiments were conducted on WMT EN-De and En-Fr to validate our proposed
scalable Transformers.
- Abstract(参考訳): Transformerは、その容量とシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
しかし、Transformerのデプロイは、さまざまなシナリオがさまざまな複雑さとスケールのモデルを必要とするため、難しい。
複数のトランスフォーマーをネイティブにトレーニングすることは、計算とメモリの両面で冗長である。
本稿では,スケールの異なるサブトランスフォーマを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマを提案する。
各サブトランスフォーマーは、最大のトランスフォーマーのパラメータをトリミングすることで容易に得ることができる。
単語レベルとシーケンスレベルの自己蒸留による追加の監督を導入するスケーラブルトランスフォーマーの訓練の難しさに対処するため、3段階のトレーニングスキームが提案されている。
WMT EN-De と En-Fr で大規模実験を行い,提案したスケーラブルトランスの検証を行った。
関連論文リスト
- Adversarial Robustness of In-Context Learning in Transformers for Linear Regression [23.737606860443705]
本研究は,線形回帰タスクの設定に焦点をあてたテキストハイザック攻撃に対するトランスフォーマにおける文脈内学習の脆弱性について検討する。
まず,一層線形変圧器が非破壊的であり,任意の予測を出力できることを示す。
次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
論文 参考訳(メタデータ) (2024-11-07T21:25:58Z) - Efficient Visual Transformer by Learnable Token Merging [8.905020033545643]
本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
論文 参考訳(メタデータ) (2024-07-21T17:09:19Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。