論文の概要: What does self-attention learn from Masked Language Modelling?
- arxiv url: http://arxiv.org/abs/2304.07235v3
- Date: Wed, 7 Feb 2024 09:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:48:07.772575
- Title: What does self-attention learn from Masked Language Modelling?
- Title(参考訳): Masked Language Modellingから自己注意は何を学べるか?
- Authors: Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt
- Abstract要約: 自己注意はマスキング言語モデリング(MLM)によって訓練される
単語の位置と埋め込みの処理を分離すると、単一の自己注意層が一般化されたポッツモデルの条件を学習することを示す。
また、このニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
- 参考スコア(独自算出の注目度): 54.6265485082737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are neural networks which revolutionised natural language
processing and machine learning. They process sequences of inputs, like words,
using a mechanism called self-attention, which is trained via masked language
modelling (MLM). In MLM, a word is randomly masked in an input sequence, and
the network is trained to predict the missing word. Despite the practical
success of transformers, it remains unclear what type of data distribution
self-attention can learn efficiently. Here, we show analytically that if one
decouples the treatment of word positions and embeddings, a single layer of
self-attention learns the conditionals of a generalised Potts model with
interactions between sites and Potts colours. Moreover, we show that training
this neural network is exactly equivalent to solving the inverse Potts problem
by the so-called pseudo-likelihood method, well known in statistical physics.
Using this mapping, we compute the generalisation error of self-attention in a
model scenario analytically using the replica method.
- Abstract(参考訳): トランスフォーマーは自然言語処理と機械学習に革命をもたらしたニューラルネットワークである。
彼らは単語のように入力のシーケンスを自己認識と呼ばれるメカニズムを使って処理し、それはマスク付き言語モデリング(MLM)によって訓練される。
MLMでは、単語は入力シーケンスでランダムにマスクされ、ネットワークは欠落した単語を予測するために訓練される。
変圧器の実用的成功にもかかわらず、どのようなデータ分散自意識が効率的に学習できるかは不明だ。
ここでは,単語の位置と埋め込みの処理を分離すると,一層の自己注意層が,サイトとポッツの色との相互作用を伴う一般化ポッツモデルの条件を学習することを示す。
さらに, このニューラルネットワークのトレーニングは, 統計物理学でよく知られた擬似類似解法によって, 逆ポッツ問題の解法と完全に等価であることを示す。
このマッピングを用いて,レプリカ法によるモデルシナリオにおける自己注意の一般化誤差を解析的に計算する。
関連論文リスト
- Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Pattern Inversion as a Pattern Recognition Method for Machine Learning [0.0]
本稿では,パターン認識におけるインデクシングに基づく手法について論じる。
パターン認識アプリケーションでは、このようなインデックス化手法が、完全に反転したファイルの逆パターンに取って代わることが示されている。
本稿では、新しいパターン変換を利用するパターン反転形式とその教師なしインスタント学習への応用について論じる。
論文 参考訳(メタデータ) (2021-08-15T10:25:51Z) - An empirical analysis of phrase-based and neural machine translation [0.0]
機械翻訳(MT)の2つの一般的なタイプは、フレーズベースとニューラルマシン翻訳システムです。
フレーズベースおよびニューラルMTシステムにおける重要モデルの挙動について検討する。
論文 参考訳(メタデータ) (2021-03-04T15:28:28Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。