論文の概要: Reservoir Transformer
- arxiv url: http://arxiv.org/abs/2012.15045v1
- Date: Wed, 30 Dec 2020 05:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:01:55.599312
- Title: Reservoir Transformer
- Title(参考訳): 貯水器変圧器
- Authors: Sheng Shen, Alexei Baevski, Ari S. Morcos, Kurt Keutzer, Michael Auli,
Douwe Kiela
- Abstract要約: 機械学習における古き良きアイデアに触発され、通常のトランスフォーマー層と交差する非線形の「保存層」を探究した。
様々な機械翻訳や(マッシュアップされた)言語モデリングタスクにおいて、コンバージェンスまでのウォールクロック計算時間の改善と全体的なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 89.28052130103345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that transformers obtain impressive performance even when some
of the layers are randomly initialized and never updated. Inspired by old and
well-established ideas in machine learning, we explore a variety of non-linear
"reservoir" layers interspersed with regular transformer layers, and show
improvements in wall-clock compute time until convergence, as well as overall
performance, on various machine translation and (masked) language modelling
tasks.
- Abstract(参考訳): いくつかの層がランダムに初期化され、更新されない場合でも、トランスフォーマは印象的なパフォーマンスを得る。
機械学習における古き良きアイデアに着想を得て,正規トランスフォーマー層と相互に分散した非線形の「保存」層を探索し,様々な機械翻訳と(マスク)言語モデリングタスクにおいて,収束までの壁時計計算時間の改善と全体的な性能を示す。
関連論文リスト
- Multi-resolution Time-Series Transformer for Long-term Forecasting [26.255789064084578]
様々な時間パターンを異なる解像度で同時モデリングするための新しいフレームワークMTST(Multi- resolution Time-Series Transformer)を提案する。
多くの既存の時系列変換器とは対照的に、異なるスケールで周期成分を抽出するのに適する相対的な位置符号化を用いる。
論文 参考訳(メタデータ) (2023-11-07T17:18:52Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - W-Transformers : A Wavelet-based Transformer Framework for Univariate
Time Series Forecasting [7.075125892721573]
我々はウェーブレットベースのトランスフォーマーエンコーダアーキテクチャを用いて,非定常時系列のトランスフォーマーモデルを構築した。
各種ドメインから公開されているベンチマーク時系列データセットについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2022-09-08T17:39:38Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - Deep Transformers with Latent Depth [42.33955275626127]
Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
多言語機械翻訳のための1つの共有トランスフォーマーネットワークを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T07:13:23Z) - Multi-branch Attentive Transformer [152.07840447196384]
我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。
注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。
機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-06-18T04:24:28Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。