論文の概要: GLU Variants Improve Transformer
- arxiv url: http://arxiv.org/abs/2002.05202v1
- Date: Wed, 12 Feb 2020 19:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 18:45:16.492676
- Title: GLU Variants Improve Transformer
- Title(参考訳): GLUバリアントがトランスを改良
- Authors: Noam Shazeer
- Abstract要約: Gated Linear Units (arXiv::1612.08083) は、2つの線形射影の成分積である。
GLU上の変分は、シグモイドの代わりに異なる非線形(あるいは線型)関数を用いて可能である。
- 参考スコア(独自算出の注目度): 11.302737696554031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gated Linear Units (arXiv:1612.08083) consist of the component-wise product
of two linear projections, one of which is first passed through a sigmoid
function. Variations on GLU are possible, using different nonlinear (or even
linear) functions in place of sigmoid. We test these variants in the
feed-forward sublayers of the Transformer (arXiv:1706.03762)
sequence-to-sequence model, and find that some of them yield quality
improvements over the typically-used ReLU or GELU activations.
- Abstract(参考訳): ゲート付き線形単位 (arxiv:1612.08083) は、2つの線型射影の成分的積であり、そのうちの1つは最初にシグモイド関数を通る。
GLU上の変分は、シグモイドの代わりに異なる非線形(あるいは線型)関数を用いて可能である。
これらの変異はTransformerのフィードフォワードサブレイヤ(arXiv:1706.03762)のシーケンス・ツー・シーケンスモデルでテストし、典型的にはReLUやGELUのアクティベーションよりも品質が向上することを示す。
関連論文リスト
- RLE: A Unified Perspective of Data Augmentation for Cross-Spectral Re-identification [59.5042031913258]
非線型モダリティの相違は主に、異なる材料の表面に作用する様々な線形変換に由来する。
本稿では,MRLE(Modrate Random Linear Enhancement)とRRLE(Radical Random Linear Enhancement)を含むRLE(Random Linear Enhancement)戦略を提案する。
実験結果は、RLEの優位性と有効性を示すだけでなく、クロススペクトル再同定のための汎用データ拡張としての可能性も確認した。
論文 参考訳(メタデータ) (2024-11-02T12:13:37Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Your Transformer is Secretly Linear [7.935853865895353]
連続層間の埋め込み変換を解析し, ほぼ完全な線形関係を明らかにする。
変換器の最も線形なブロックのいくつかを除去あるいは線形に近似することは、損失やモデル性能に大きな影響を与えないことを示す。
より小さなモデルに対する事前学習実験では, 層状リニアリティの低減を目的としたコサイン類似性に基づく正則化を導入する。
論文 参考訳(メタデータ) (2024-05-19T22:44:00Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - Analytic gradients in variational quantum algorithms: Algebraic
extensions of the parameter-shift rule to general unitary transformations [0.0]
一般固有スペクトルを持つジェネレータに対する期待値の線形結合として、勾配を定式化するためのパラメトリックシフトルールのいくつかの拡張を提案する。
我々のアプローチは正確であり、補助量子ビットは一切使用せず、代わりにジェネレータ固有スペクトル解析に依存している。
論文 参考訳(メタデータ) (2021-07-16T21:37:31Z) - Generalization of the Change of Variables Formula with Applications to
Residual Flows [7.57024681220677]
正規化フローは可変式の変化を利用してフレキシブル密度モデルを定義する。
一般化変換として $mathcalL$-diffeomorphisms を導入し、これはルベーグ測度集合上のこれらの要求に反する可能性がある。
この緩和により、ReLUのような非滑らかなアクティベーション関数を使用することができる。
論文 参考訳(メタデータ) (2021-07-09T10:31:32Z) - Generative Locally Linear Embedding [5.967999555890417]
線形局所埋め込み(LLE)は非線形スペクトル次元減少および多様体学習法である。
GLLE(Generative LLE)という,新しいLLEの2つの生成バージョンを提案する。
シミュレーションの結果,提案手法はデータの展開や部分多様体の生成に有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-04T02:59:39Z) - SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows [78.77808270452974]
SurVAE Flowsは、VAEと正規化フローを含む構成可能な変換のためのモジュラーフレームワークである。
提案手法は,SurVAE フローとして表現できることが示唆された。
論文 参考訳(メタデータ) (2020-07-06T13:13:22Z) - Gaussianization Flows [113.79542218282282]
そこで本研究では,サンプル生成における効率のよい繰り返しと効率のよい逆変換を両立できる新しい型正規化フローモデルを提案する。
この保証された表現性のため、サンプル生成の効率を損なうことなく、マルチモーダルなターゲット分布をキャプチャできる。
論文 参考訳(メタデータ) (2020-03-04T08:15:06Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。