論文の概要: Redesigning the Transformer Architecture with Insights from
Multi-particle Dynamical Systems
- arxiv url: http://arxiv.org/abs/2109.15142v1
- Date: Thu, 30 Sep 2021 14:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 21:07:51.379506
- Title: Redesigning the Transformer Architecture with Insights from
Multi-particle Dynamical Systems
- Title(参考訳): 多粒子力学系によるトランスフォーマーアーキテクチャの再設計
- Authors: Subhabrata Dutta, Tanya Gautam, Soumen Chakrabarti and Tanmoy
Chakraborty
- Abstract要約: 我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。
時間的進化計画であるTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。
我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。
- 参考スコア(独自算出の注目度): 32.86421107987556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer and its variants have been proven to be efficient sequence
learners in many different domains. Despite their staggering success, a
critical issue has been the enormous number of parameters that must be trained
(ranging from $10^7$ to $10^{11}$) along with the quadratic complexity of
dot-product attention. In this work, we investigate the problem of
approximating the two central components of the Transformer -- multi-head
self-attention and point-wise feed-forward transformation, with reduced
parameter space and computational complexity. We build upon recent developments
in analyzing deep neural networks as numerical solvers of ordinary differential
equations. Taking advantage of an analogy between Transformer stages and the
evolution of a dynamical system of multiple interacting particles, we formulate
a temporal evolution scheme, TransEvolve, to bypass costly dot-product
attention over multiple stacked layers. We perform exhaustive experiments with
TransEvolve on well-known encoder-decoder as well as encoder-only tasks. We
observe that the degree of approximation (or inversely, the degree of parameter
reduction) has different effects on the performance, depending on the task.
While in the encoder-decoder regime, TransEvolve delivers performances
comparable to the original Transformer, in encoder-only tasks it consistently
outperforms Transformer along with several subsequent variants.
- Abstract(参考訳): Transformerとその変種は、多くの異なる領域における効率的なシーケンス学習者であることが証明されている。
驚くべき成功にもかかわらず、重要な問題は、(10^7$から10^{11}$まで)訓練しなければならない膨大なパラメータと、ドット製品への注意の二次的な複雑さである。
本研究では,Transformerの2つの中心成分であるマルチヘッド自己アテンションとポイントワイドフィードフォワード変換をパラメータ空間と計算複雑性で近似する問題について検討する。
我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。
変圧器の段差と複数の相互作用粒子の力学系の進化の類似性を利用して、時間的進化スキームTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。
我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。
近似の程度(あるいは逆のパラメータ減少の程度)がタスクによって性能に異なる影響を与えることを観察する。
エンコーダ/デコーダのシステムでは、TransEvolveはオリジナルのTransformerに匹敵するパフォーマンスを提供するが、エンコーダのみのタスクではTransformerよりも連続的にパフォーマンスが向上する。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention [0.464982780843177]
量子回路は、カーネルベースの演算子学習の観点から、自己認識機構を効率的に表現できることを示す。
本研究では、単純なゲート演算と多次元量子フーリエ変換を用いて、視覚トランスネットワークの深い層を表現することができる。
我々は,SASTQuaCh(Self-Attention Sequential Quantum Transformer Channel)と呼ばれる新しい変分量子回路を解析し,単純化された分類問題に対するその有用性を実証する。
論文 参考訳(メタデータ) (2024-03-21T18:00:04Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。