論文の概要: The Brownian motion in the transformer model
- arxiv url: http://arxiv.org/abs/2107.05264v1
- Date: Mon, 12 Jul 2021 08:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 21:47:56.322464
- Title: The Brownian motion in the transformer model
- Title(参考訳): 変圧器模型におけるブラウン運動
- Authors: Yingshi Chen
- Abstract要約: Transformerは多くの言語および視覚タスクのためのアートモデルの状態である。
ブラウン運動は特別な性質を持ち、2階の項目は無視すべきではない。
深層学習プロセスは、これらのトークンの適切な位置を得るために適切なカーネル関数を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer is the state of the art model for many language and visual tasks.
In this paper, we give a deep analysis of its multi-head self-attention (MHSA)
module and find that: 1) Each token is a random variable in high dimensional
feature space. 2) After layer normalization, these variables are mapped to
points on the hyper-sphere. 3) The update of these tokens is a Brownian motion.
The Brownian motion has special properties, its second order item should not be
ignored. So we present a new second-order optimizer(an iterative K-FAC
algorithm) for the MHSA module.
In some short words: All tokens are mapped to high dimension hyper-sphere.
The Scaled Dot-Product Attention
$softmax(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d}})$ is just the Markov
transition matrix for the random walking on the sphere. And the deep learning
process would learn proper kernel function to get proper positions of these
tokens. The training process in the MHSA module corresponds to a Brownian
motion worthy of further study.
- Abstract(参考訳): Transformerは多くの言語および視覚タスクのためのアートモデルの状態である。
本稿では,そのマルチヘッド自己アテンション(MHSA)モジュールの深い解析を行い,(1)各トークンは高次元特徴空間におけるランダム変数であることを示す。
2) 層正規化後、これらの変数は超球面上の点にマッピングされる。
3) これらのトークンの更新はブラウン運動である。
ブラウン運動は特別な性質を持ち、2階のアイテムは無視するべきではない。
そこで我々は,MHSAモジュールのための2階最適化器(反復K-FACアルゴリズム)を提案する。
一言で言えば、全てのトークンは高次元超球面にマッピングされる。
スケールド・ドット積注意$softmax(\frac{\mathbf{q}\mathbf{k}^t}{\sqrt{d}})$ は球面上をランダムに歩くためのマルコフ遷移行列である。
そして、深層学習プロセスは、これらのトークンの適切な位置を得るために適切なカーネル関数を学習する。
MHSAモジュールのトレーニングプロセスは、さらなる研究に値するブラウン運動に対応する。
関連論文リスト
- RefineStyle: Dynamic Convolution Refinement for StyleGAN [15.230430037135017]
StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T15:01:30Z) - nGPT: Normalized Transformer with Representation Learning on the Hypersphere [23.68985490613222]
我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。
nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
論文 参考訳(メタデータ) (2024-10-01T23:50:09Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation [14.967600484476385]
本稿では,任意の視点からセグメンテーションマスクを提供する新しいアプローチであるContrastive Gaussian Clusteringを紹介する。
本手法は,不整合な2次元セグメンテーションマスクを用いてトレーニングが可能であり,また,すべてのビューに一貫性のあるセグメンテーションマスクの生成も学べる。
結果のモデルは非常に正確で、予測されたマスクのIoU精度を、最先端で+8%以上向上させる。
論文 参考訳(メタデータ) (2024-04-19T10:47:53Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - Metric Transforms and Low Rank Matrices via Representation Theory of the
Real Hyperrectangle [17.808087068037985]
ハイパー矩形から生じる行列の固有ベクトルと固有値の計算方法を示す。
次に、これらの接続と共に新しい手法を使用して、いくつかの新しい構造結果を示す。
論文 参考訳(メタデータ) (2020-11-23T16:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。