論文の概要: GLU Variants Improve Transformer
- arxiv url: http://arxiv.org/abs/2002.05202v1
- Date: Wed, 12 Feb 2020 19:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 18:45:16.492676
- Title: GLU Variants Improve Transformer
- Title(参考訳): GLUバリアントがトランスを改良
- Authors: Noam Shazeer
- Abstract要約: Gated Linear Units (arXiv::1612.08083) は、2つの線形射影の成分積である。
GLU上の変分は、シグモイドの代わりに異なる非線形(あるいは線型)関数を用いて可能である。
- 参考スコア(独自算出の注目度): 11.302737696554031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gated Linear Units (arXiv:1612.08083) consist of the component-wise product
of two linear projections, one of which is first passed through a sigmoid
function. Variations on GLU are possible, using different nonlinear (or even
linear) functions in place of sigmoid. We test these variants in the
feed-forward sublayers of the Transformer (arXiv:1706.03762)
sequence-to-sequence model, and find that some of them yield quality
improvements over the typically-used ReLU or GELU activations.
- Abstract(参考訳): ゲート付き線形単位 (arxiv:1612.08083) は、2つの線型射影の成分的積であり、そのうちの1つは最初にシグモイド関数を通る。
GLU上の変分は、シグモイドの代わりに異なる非線形(あるいは線型)関数を用いて可能である。
これらの変異はTransformerのフィードフォワードサブレイヤ(arXiv:1706.03762)のシーケンス・ツー・シーケンスモデルでテストし、典型的にはReLUやGELUのアクティベーションよりも品質が向上することを示す。
関連論文リスト
- How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Analytic gradients in variational quantum algorithms: Algebraic
extensions of the parameter-shift rule to general unitary transformations [0.0]
一般固有スペクトルを持つジェネレータに対する期待値の線形結合として、勾配を定式化するためのパラメトリックシフトルールのいくつかの拡張を提案する。
我々のアプローチは正確であり、補助量子ビットは一切使用せず、代わりにジェネレータ固有スペクトル解析に依存している。
論文 参考訳(メタデータ) (2021-07-16T21:37:31Z) - Generalization of the Change of Variables Formula with Applications to
Residual Flows [7.57024681220677]
正規化フローは可変式の変化を利用してフレキシブル密度モデルを定義する。
一般化変換として $mathcalL$-diffeomorphisms を導入し、これはルベーグ測度集合上のこれらの要求に反する可能性がある。
この緩和により、ReLUのような非滑らかなアクティベーション関数を使用することができる。
論文 参考訳(メタデータ) (2021-07-09T10:31:32Z) - Generative Locally Linear Embedding [5.967999555890417]
線形局所埋め込み(LLE)は非線形スペクトル次元減少および多様体学習法である。
GLLE(Generative LLE)という,新しいLLEの2つの生成バージョンを提案する。
シミュレーションの結果,提案手法はデータの展開や部分多様体の生成に有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-04T02:59:39Z) - SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows [78.77808270452974]
SurVAE Flowsは、VAEと正規化フローを含む構成可能な変換のためのモジュラーフレームワークである。
提案手法は,SurVAE フローとして表現できることが示唆された。
論文 参考訳(メタデータ) (2020-07-06T13:13:22Z) - Multimode Bogoliubov transformation and Husimi's Q-function [3.04585143845864]
フォック状態に基づくガウス/非ガウスの行列要素を評価するための数値スキームを提案する。
積分変換作用素を用いて多モードボゴリューボフ変換を行うと、フシミのガウス/非ガウスのQ-函数は容易に導出できる。
論文 参考訳(メタデータ) (2020-04-13T04:38:32Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z) - Gaussianization Flows [113.79542218282282]
そこで本研究では,サンプル生成における効率のよい繰り返しと効率のよい逆変換を両立できる新しい型正規化フローモデルを提案する。
この保証された表現性のため、サンプル生成の効率を損なうことなく、マルチモーダルなターゲット分布をキャプチャできる。
論文 参考訳(メタデータ) (2020-03-04T08:15:06Z) - Invariant Feature Coding using Tensor Product Representation [75.62232699377877]
我々は,群不変特徴ベクトルが線形分類器を学習する際に十分な識別情報を含んでいることを証明した。
主成分分析やk平均クラスタリングにおいて,グループアクションを明示的に考慮する新たな特徴モデルを提案する。
論文 参考訳(メタデータ) (2019-06-05T07:15:17Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。