論文の概要: On Learning the Transformer Kernel
- arxiv url: http://arxiv.org/abs/2110.08323v1
- Date: Fri, 15 Oct 2021 19:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:03:32.336616
- Title: On Learning the Transformer Kernel
- Title(参考訳): 変圧器カーネルの学習について
- Authors: Sankalan Pal Chowdhury, Adamos Solomou, Avinava Dubey and Mrinmaya
Sachan
- Abstract要約: KERNELIZED TransformERは、Transformerでカーネル関数を学習するための汎用的でスケーラブルなデータ駆動フレームワークである。
本フレームワークは,スペクトル特徴写像間のドット積としてTransformerカーネルを近似し,スペクトル分布を学習してカーネルを学習する。
- 参考スコア(独自算出の注目度): 13.955526058823166
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work we introduce KERNELIZED TRANSFORMER, a generic, scalable, data
driven framework for learning the kernel function in Transformers. Our
framework approximates the Transformer kernel as a dot product between spectral
feature maps and learns the kernel by learning the spectral distribution. This
not only helps in learning a generic kernel end-to-end, but also reduces the
time and space complexity of Transformers from quadratic to linear. We show
that KERNELIZED TRANSFORMERS achieve performance comparable to existing
efficient Transformer architectures, both in terms of accuracy as well as
computational efficiency. Our study also demonstrates that the choice of the
kernel has a substantial impact on performance, and kernel learning variants
are competitive alternatives to fixed kernel Transformers, both in long as well
as short sequence tasks.
- Abstract(参考訳): 本稿では,カーネル関数をトランスフォーマーで学習するための汎用的でスケーラブルなデータ駆動フレームワークであるKERNELIZED TransformERを紹介する。
本フレームワークは,スペクトル特徴写像間のドット積としてTransformerカーネルを近似し,スペクトル分布を学習してカーネルを学習する。
これは汎用カーネルのエンドツーエンドの学習に役立つだけでなく、トランスフォーマーの時間と空間の複雑さを2次から線形に短縮する。
我々は,KERNELIZED TransformERSが,精度と計算効率の両面で,既存の効率的なTransformerアーキテクチャに匹敵する性能を実現することを示す。
本研究は,カーネルの選択が性能に多大な影響を与え,カーネル学習の亜種がカーネルトランスフォーマーの長短および短短のタスクに対する競合的な代替手段であることを示す。
関連論文リスト
- Spectraformer: A Unified Random Feature Framework for Transformer [2.8514881296685113]
本稿では,Transformerの線形化におけるカーネル関数の近似と学習のための統合フレームワークであるSpectraformerを紹介する。
我々の経験から、異なるカーネルは異なるタスクに長けており、カーネルの選択はパフォーマンスモデルの基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T07:52:53Z) - Amortized Inference for Gaussian Process Hyperparameters of Structured
Kernels [5.1672267755831705]
異なるデータセットに対するパラメータ推論の補正は、トレーニング時間を劇的に高速化するための有望なアプローチである。
本稿では,固定化されたカーネル構造ではなく,完全なカーネル構造ファミリ上でのカーネルパラメータのアモータイズを提案する。
大規模なカーネルとデータセットの競合テスト性能と合わせて,推論時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2023-06-16T13:02:57Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - Transformer with Fourier Integral Attentions [18.031977028559282]
本稿では,ドット積カーネルを一般化されたフーリエ積分カーネルに置き換えた新しい変圧器のクラスを提案する。
FourierFormersは従来のドット生成型変換器と比較して精度が向上し、注目ヘッド間の冗長性が低減された。
本稿では,FourierFormersのベースライントランスフォーマーに対する利点を,言語モデリングや画像分類など,様々な実践的応用において実証的に相関付けする。
論文 参考訳(メタデータ) (2022-06-01T03:06:21Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Kernel Continual Learning [117.79080100313722]
カーネル連続学習は、破滅的な忘れ事に取り組むための、シンプルだが効果的な連続学習の変種である。
エピソードメモリユニットは、カーネルリッジ回帰に基づいてタスク固有の分類器を学ぶために、各タスクのサンプルのサブセットを格納する。
タスク毎にデータ駆動カーネルを学ぶための変動ランダム機能。
論文 参考訳(メタデータ) (2021-07-12T22:09:30Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel
Machines [15.55404574021651]
本稿では,トランスフォーマーの動作のコアとなる「ドット生成注意」が,バナッハ空間上のカーネル学習手法として特徴付けられることを示す。
特にトランスフォーマーのカーネルは無限の特徴次元を持つ。
本稿は、現代の機械学習において、非常に重要だが理解されていないモデルについて、新たな理論的理解を提供するものである。
論文 参考訳(メタデータ) (2021-06-02T23:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。