論文の概要: Optimal inference of a generalised Potts model by single-layer
transformers with factored attention
- arxiv url: http://arxiv.org/abs/2304.07235v1
- Date: Fri, 14 Apr 2023 16:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 12:58:53.217287
- Title: Optimal inference of a generalised Potts model by single-layer
transformers with factored attention
- Title(参考訳): 注意因子を有する単層変圧器による一般化ポッツモデルの最適推定
- Authors: Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt
- Abstract要約: 小さい修正を施した単一自己注意層が、無限サンプリングの極限でポッツモデルを正確に学習できることが示される。
逆イジング・ポッツ問題の解法として擬似類似解への正確な写像を導出する。
- 参考スコア(独自算出の注目度): 71.15236509870164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are the type of neural networks that has revolutionised natural
language processing and protein science. Their key building block is a
mechanism called self-attention which is trained to predict missing words in
sentences. Despite the practical success of transformers in applications it
remains unclear what self-attention learns from data, and how. Here, we give a
precise analytical and numerical characterisation of transformers trained on
data drawn from a generalised Potts model with interactions between sites and
Potts colours. While an off-the-shelf transformer requires several layers to
learn this distribution, we show analytically that a single layer of
self-attention with a small modification can learn the Potts model exactly in
the limit of infinite sampling. We show that this modified self-attention, that
we call ``factored'', has the same functional form as the conditional
probability of a Potts spin given the other spins, compute its generalisation
error using the replica method from statistical physics, and derive an exact
mapping to pseudo-likelihood methods for solving the inverse Ising and Potts
problem.
- Abstract(参考訳): トランスフォーマーは、自然言語処理とタンパク質科学に革命をもたらしたニューラルネットワークの一種である。
彼らの重要な構築ブロックは、文中の欠落単語を予測するように訓練されたセルフアテンションと呼ばれるメカニズムである。
アプリケーションにおけるトランスフォーマーの実践的な成功にもかかわらず、データから自己注意が何を学ぶのか、どのように学習するかは、まだ不明である。
本稿では,サイトとポッツ色間の相互作用を考慮した一般化ポッツモデルから得られたデータに基づいて学習したトランスフォーマーの正確な解析および数値的特性について述べる。
オフザシェルフ変換器はこの分布を学習するために複数の層を必要とするが、小さな修正を伴う単層自己注意層が、無限サンプリングの極限でポッツモデルを正確に学習できることを解析的に示す。
この修正自己完結は「因子」と呼ばれ、他のスピンが与えられたポッツスピンの条件付き確率と同じ関数型を持ち、統計物理学のレプリカ法を用いてその一般化誤差を計算し、逆イジングやポッツ問題を解くための擬似類似法への正確なマッピングを導出する。
関連論文リスト
- On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Detecting out-of-distribution text using topological features of transformer-based language models [0.5735035463793009]
本稿では,トランスフォーマーに基づく言語モデルからの自己注意マップのトポロジ的特徴を利用して,入力テキストの分布外の検出を行う。
BERT に対する我々のアプローチを評価し,従来の OOD アプローチと比較した。
以上の結果から,本手法はCLS埋め込みよりも優れており,ドメイン内分布サンプルとドメイン外分布サンプルを区別するが,ほぼ同一あるいは同一のデータセットと競合することを示す。
論文 参考訳(メタデータ) (2023-11-22T02:04:35Z) - Instance-wise Linearization of Neural Network for Model Interpretation [13.583425552511704]
この課題は、ニューラルネットワークの非線形動作に潜むことができる。
ニューラルネットワークモデルでは、非線形な振る舞いはモデルの非線形なアクティベーションユニットによって引き起こされることが多い。
本稿では,ニューラルネットワーク予測のフォワード計算過程を再構成するインスタンスワイズ線形化手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T02:07:39Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Pattern Inversion as a Pattern Recognition Method for Machine Learning [0.0]
本稿では,パターン認識におけるインデクシングに基づく手法について論じる。
パターン認識アプリケーションでは、このようなインデックス化手法が、完全に反転したファイルの逆パターンに取って代わることが示されている。
本稿では、新しいパターン変換を利用するパターン反転形式とその教師なしインスタント学習への応用について論じる。
論文 参考訳(メタデータ) (2021-08-15T10:25:51Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。