論文の概要: What does self-attention learn from Masked Language Modelling?
- arxiv url: http://arxiv.org/abs/2304.07235v3
- Date: Wed, 7 Feb 2024 09:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:48:07.772575
- Title: What does self-attention learn from Masked Language Modelling?
- Title(参考訳): Masked Language Modellingから自己注意は何を学べるか?
- Authors: Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt
- Abstract要約: 自己注意はマスキング言語モデリング(MLM)によって訓練される
単語の位置と埋め込みの処理を分離すると、単一の自己注意層が一般化されたポッツモデルの条件を学習することを示す。
また、このニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
- 参考スコア(独自算出の注目度): 54.6265485082737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are neural networks which revolutionised natural language
processing and machine learning. They process sequences of inputs, like words,
using a mechanism called self-attention, which is trained via masked language
modelling (MLM). In MLM, a word is randomly masked in an input sequence, and
the network is trained to predict the missing word. Despite the practical
success of transformers, it remains unclear what type of data distribution
self-attention can learn efficiently. Here, we show analytically that if one
decouples the treatment of word positions and embeddings, a single layer of
self-attention learns the conditionals of a generalised Potts model with
interactions between sites and Potts colours. Moreover, we show that training
this neural network is exactly equivalent to solving the inverse Potts problem
by the so-called pseudo-likelihood method, well known in statistical physics.
Using this mapping, we compute the generalisation error of self-attention in a
model scenario analytically using the replica method.
- Abstract(参考訳): トランスフォーマーは自然言語処理と機械学習に革命をもたらしたニューラルネットワークである。
彼らは単語のように入力のシーケンスを自己認識と呼ばれるメカニズムを使って処理し、それはマスク付き言語モデリング(MLM)によって訓練される。
MLMでは、単語は入力シーケンスでランダムにマスクされ、ネットワークは欠落した単語を予測するために訓練される。
変圧器の実用的成功にもかかわらず、どのようなデータ分散自意識が効率的に学習できるかは不明だ。
ここでは,単語の位置と埋め込みの処理を分離すると,一層の自己注意層が,サイトとポッツの色との相互作用を伴う一般化ポッツモデルの条件を学習することを示す。
さらに, このニューラルネットワークのトレーニングは, 統計物理学でよく知られた擬似類似解法によって, 逆ポッツ問題の解法と完全に等価であることを示す。
このマッピングを用いて,レプリカ法によるモデルシナリオにおける自己注意の一般化誤差を解析的に計算する。
関連論文リスト
- On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Detecting out-of-distribution text using topological features of transformer-based language models [0.5735035463793009]
本稿では,トランスフォーマーに基づく言語モデルからの自己注意マップのトポロジ的特徴を利用して,入力テキストの分布外の検出を行う。
BERT に対する我々のアプローチを評価し,従来の OOD アプローチと比較した。
以上の結果から,本手法はCLS埋め込みよりも優れており,ドメイン内分布サンプルとドメイン外分布サンプルを区別するが,ほぼ同一あるいは同一のデータセットと競合することを示す。
論文 参考訳(メタデータ) (2023-11-22T02:04:35Z) - Instance-wise Linearization of Neural Network for Model Interpretation [13.583425552511704]
この課題は、ニューラルネットワークの非線形動作に潜むことができる。
ニューラルネットワークモデルでは、非線形な振る舞いはモデルの非線形なアクティベーションユニットによって引き起こされることが多い。
本稿では,ニューラルネットワーク予測のフォワード計算過程を再構成するインスタンスワイズ線形化手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T02:07:39Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Pattern Inversion as a Pattern Recognition Method for Machine Learning [0.0]
本稿では,パターン認識におけるインデクシングに基づく手法について論じる。
パターン認識アプリケーションでは、このようなインデックス化手法が、完全に反転したファイルの逆パターンに取って代わることが示されている。
本稿では、新しいパターン変換を利用するパターン反転形式とその教師なしインスタント学習への応用について論じる。
論文 参考訳(メタデータ) (2021-08-15T10:25:51Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。