論文の概要: Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel
Machines
- arxiv url: http://arxiv.org/abs/2106.01506v1
- Date: Wed, 2 Jun 2021 23:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:16:40.812299
- Title: Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel
Machines
- Title(参考訳): トランスフォーマーは、無限次元の非マーサーバイナリカーネルマシンである
- Authors: Matthew A. Wright, Joseph E. Gonzalez
- Abstract要約: 本稿では,トランスフォーマーの動作のコアとなる「ドット生成注意」が,バナッハ空間上のカーネル学習手法として特徴付けられることを示す。
特にトランスフォーマーのカーネルは無限の特徴次元を持つ。
本稿は、現代の機械学習において、非常に重要だが理解されていないモデルについて、新たな理論的理解を提供するものである。
- 参考スコア(独自算出の注目度): 15.55404574021651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their ubiquity in core AI fields like natural language processing,
the mechanics of deep attention-based neural networks like the Transformer
model are not fully understood. In this article, we present a new perspective
towards understanding how Transformers work. In particular, we show that the
"dot-product attention" that is the core of the Transformer's operation can be
characterized as a kernel learning method on a pair of Banach spaces. In
particular, the Transformer's kernel is characterized as having an infinite
feature dimension. Along the way we consider an extension of the standard
kernel learning problem to a binary setting, where data come from two input
domains and a response is defined for every cross-domain pair. We prove a new
representer theorem for these binary kernel machines with non-Mercer
(indefinite, asymmetric) kernels (implying that the functions learned are
elements of reproducing kernel Banach spaces rather than Hilbert spaces), and
also prove a new universal approximation theorem showing that the Transformer
calculation can learn any binary non-Mercer reproducing kernel Banach space
pair. We experiment with new kernels in Transformers, and obtain results that
suggest the infinite dimensionality of the standard Transformer kernel is
partially responsible for its performance. This paper's results provide a new
theoretical understanding of a very important but poorly understood model in
modern machine~learning.
- Abstract(参考訳): 自然言語処理のようなコアai分野に普及しているにもかかわらず、トランスフォーマーモデルのような深い注意に基づくニューラルネットワークの仕組みは、完全には理解されていない。
本稿では,トランスフォーマーの動作を理解するための新しい視点を提案する。
特に,一対のバナッハ空間上のカーネル学習法として,トランスフォーマの演算の核となる「ドート生成的注意」を特徴付けることができることを示す。
特に、トランスフォーマーのカーネルは無限の特徴次元を持つのが特徴である。
その過程で、標準的なカーネル学習問題をバイナリ設定に拡張し、2つの入力ドメインからデータを取得し、各クロスドメインペアに対して応答を定義する。
非マーサー(非定義、非対称)なカーネル(学習した関数はヒルベルト空間ではなく、カーネルバナッハ空間を再現する要素である)を持つこれらのバイナリカーネルマシンの新しい表現子定理を証明し、トランスフォーマー計算が任意のバイナリ非マーサー再生成核バナッハ空間を学習できることを示す新しい普遍近似定理を証明した。
我々はTransformerの新しいカーネルを実験し、標準Transformerカーネルの無限次元性が部分的に性能に寄与することを示す結果を得た。
本論文は,現代機械-学習における非常に重要だが理解が不十分なモデルに対する新たな理論的理解を提供する。
関連論文リスト
- Spectral Truncation Kernels: Noncommutativity in $C^*$-algebraic Kernel Machines [12.11705128358537]
スペクトルトランケーションに基づく正定値カーネルの新しいクラスを提案する。
性能向上につながる要因であることを示す。
また,スペクトルトランケーションカーネルの表現能力を高めるための深層学習の視点も提案する。
論文 参考訳(メタデータ) (2024-05-28T04:47:12Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - Transformer with Fourier Integral Attentions [18.031977028559282]
本稿では,ドット積カーネルを一般化されたフーリエ積分カーネルに置き換えた新しい変圧器のクラスを提案する。
FourierFormersは従来のドット生成型変換器と比較して精度が向上し、注目ヘッド間の冗長性が低減された。
本稿では,FourierFormersのベースライントランスフォーマーに対する利点を,言語モデリングや画像分類など,様々な実践的応用において実証的に相関付けする。
論文 参考訳(メタデータ) (2022-06-01T03:06:21Z) - On Learning the Transformer Kernel [13.955526058823166]
KERNELIZED TransformERは、Transformerでカーネル関数を学習するための汎用的でスケーラブルなデータ駆動フレームワークである。
本フレームワークは,スペクトル特徴写像間のドット積としてTransformerカーネルを近似し,スペクトル分布を学習してカーネルを学習する。
論文 参考訳(メタデータ) (2021-10-15T19:20:25Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。