論文の概要: The Brownian motion in the transformer model
- arxiv url: http://arxiv.org/abs/2107.05264v1
- Date: Mon, 12 Jul 2021 08:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 21:47:56.322464
- Title: The Brownian motion in the transformer model
- Title(参考訳): 変圧器模型におけるブラウン運動
- Authors: Yingshi Chen
- Abstract要約: Transformerは多くの言語および視覚タスクのためのアートモデルの状態である。
ブラウン運動は特別な性質を持ち、2階の項目は無視すべきではない。
深層学習プロセスは、これらのトークンの適切な位置を得るために適切なカーネル関数を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer is the state of the art model for many language and visual tasks.
In this paper, we give a deep analysis of its multi-head self-attention (MHSA)
module and find that: 1) Each token is a random variable in high dimensional
feature space. 2) After layer normalization, these variables are mapped to
points on the hyper-sphere. 3) The update of these tokens is a Brownian motion.
The Brownian motion has special properties, its second order item should not be
ignored. So we present a new second-order optimizer(an iterative K-FAC
algorithm) for the MHSA module.
In some short words: All tokens are mapped to high dimension hyper-sphere.
The Scaled Dot-Product Attention
$softmax(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d}})$ is just the Markov
transition matrix for the random walking on the sphere. And the deep learning
process would learn proper kernel function to get proper positions of these
tokens. The training process in the MHSA module corresponds to a Brownian
motion worthy of further study.
- Abstract(参考訳): Transformerは多くの言語および視覚タスクのためのアートモデルの状態である。
本稿では,そのマルチヘッド自己アテンション(MHSA)モジュールの深い解析を行い,(1)各トークンは高次元特徴空間におけるランダム変数であることを示す。
2) 層正規化後、これらの変数は超球面上の点にマッピングされる。
3) これらのトークンの更新はブラウン運動である。
ブラウン運動は特別な性質を持ち、2階のアイテムは無視するべきではない。
そこで我々は,MHSAモジュールのための2階最適化器(反復K-FACアルゴリズム)を提案する。
一言で言えば、全てのトークンは高次元超球面にマッピングされる。
スケールド・ドット積注意$softmax(\frac{\mathbf{q}\mathbf{k}^t}{\sqrt{d}})$ は球面上をランダムに歩くためのマルコフ遷移行列である。
そして、深層学習プロセスは、これらのトークンの適切な位置を得るために適切なカーネル関数を学習する。
MHSAモジュールのトレーニングプロセスは、さらなる研究に値するブラウン運動に対応する。
関連論文リスト
- How do Transformers perform In-Context Autoregressive Learning? [65.92202218348696]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Differentiable and accelerated wavelet transforms on the sphere and ball [6.219412541001482]
方向性ウェーブレット辞書は、スケール、位置、方向をまたいだ情報を効率的にキャプチャし、セグメント化する。
多くの物理的に重要な信号は、宇宙論における天空のような球面領域上で観測される。
我々は, 2 次元球面 $mathbbS2$ および 3 次元球面 $mathbbB3 上に, 分散性が高く, 自動微分可能な方向ウェーブレット変換を新たに設計する。
論文 参考訳(メタデータ) (2024-02-02T10:16:10Z) - Enhancing Edge Intelligence with Highly Discriminant LNT Features [34.68386939969883]
我々は、入力特徴の適切な線形結合から、第1モジュールで得られるxで表される新しい識別特徴を導出する。
最小二乗正規変換(LNT)に基づく高度に識別された相補的特徴を生成する新しい教師付き学習法を提案する。
実験の結果,これらの特徴により分類性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-12-19T09:17:35Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - Householder Dice: A Matrix-Free Algorithm for Simulating Dynamics on
Gaussian and Random Orthogonal Ensembles [12.005731086591139]
Householder Dice (HD) は、高密度ランダム行列アンサンブルのダイナミクスを翻訳不変特性でシミュレートするアルゴリズムである。
HDアルゴリズムのメモリとコストはそれぞれ$mathcalO(nT)$と$mathcalO(nT2)$である。
数値結果は、高次元ランダムシステムの研究における新しい計算ツールとしてのHDアルゴリズムの約束を示しています。
論文 参考訳(メタデータ) (2021-01-19T04:50:53Z) - Metric Transforms and Low Rank Matrices via Representation Theory of the
Real Hyperrectangle [17.808087068037985]
ハイパー矩形から生じる行列の固有ベクトルと固有値の計算方法を示す。
次に、これらの接続と共に新しい手法を使用して、いくつかの新しい構造結果を示す。
論文 参考訳(メタデータ) (2020-11-23T16:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。