論文の概要: Linear Self-Attention Approximation via Trainable Feedforward Kernel
- arxiv url: http://arxiv.org/abs/2211.04076v1
- Date: Tue, 8 Nov 2022 08:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:25:25.786729
- Title: Linear Self-Attention Approximation via Trainable Feedforward Kernel
- Title(参考訳): 訓練可能なフィードフォワードカーネルによる線形自己アテンション近似
- Authors: Uladzislau Yorsh and Alexander Kovalenko
- Abstract要約: 高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In pursuit of faster computation, Efficient Transformers demonstrate an
impressive variety of approaches -- models attaining sub-quadratic attention
complexity can utilize a notion of sparsity or a low-rank approximation of
inputs to reduce the number of attended keys; other ways to reduce complexity
include locality-sensitive hashing, key pooling, additional memory to store
information in compacted or hybridization with other architectures, such as
CNN. Often based on a strong mathematical basis, kernelized approaches allow
for the approximation of attention with linear complexity while retaining high
accuracy. Therefore, in the present paper, we aim to expand the idea of
trainable kernel methods to approximate the self-attention mechanism of the
Transformer architecture.
- Abstract(参考訳): より高速な計算を追求するために、効率的なトランスフォーマーは、印象的な様々なアプローチを実証する - サブクワッドアテンション複雑性を実現するモデルでは、スパーシリティの概念や入力の低ランク近似を利用して、出席するキーの数を減らすことができる。
しばしば強い数学的基礎に基づいて、カーネル化されたアプローチは、高い精度を維持しながら線形複雑度で注意を近似することができる。
そこで,本稿では,学習可能なカーネルメソッドの考え方を拡張し,トランスフォーマアーキテクチャの自己着脱機構を近似する。
関連論文リスト
- Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.78080749909665]
現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。
本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。
本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文 参考訳(メタデータ) (2024-06-13T05:49:29Z) - Fast Dual Subgradient Optimization of the Integrated Transportation
Distance Between Stochastic Kernels [1.5229257192293204]
統合輸送距離であるワッサーシュタイン計量の一般化はマルコフ系の確率核間の新しい距離を確立する。
この計量は効率的な近似法の基盤として機能し、元のシステムのカーネルをカーネルに置き換え、限られた濃度で個別にサポートできるようにする。
計算コストのかかる行列演算を必要とせずに、これらの近似カーネルを迅速かつ効率的に構築できる特殊二元アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-03T15:44:17Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Reconstructing Kernel-based Machine Learning Force Fields with
Super-linear Convergence [0.18416014644193063]
我々は、プレコンディショナーを構築するためのNystr"om-typeメソッドの幅広いクラスについて考察する。
検討されたすべての方法は、支配的なカーネルスペクトルを近似するために、インジェクション(カーネル)列の代表的なサブセットを特定することを目的としている。
論文 参考訳(メタデータ) (2022-12-24T13:45:50Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Semi-Parametric Inducing Point Networks and Neural Processes [15.948270454686197]
半パラメトリック誘導点ネットワーク(SPIN)は、推論時間におけるトレーニングセットを計算効率よくクエリすることができる。
SPINは、ポイントメソッドにインスパイアされたデータポイント間のクロスアテンションメカニズムを通じて、線形複雑性を実現する。
実験では,SPINはメモリ要件を低減し,様々なメタラーニングタスクの精度を向上し,重要な実用的問題である遺伝子型計算における最先端性能を向上させる。
論文 参考訳(メタデータ) (2022-05-24T01:42:46Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Factorized Gaussian Process Variational Autoencoders [6.866104126509981]
変分オートエンコーダは、しばしば等方的ガウス先行と平均体後部を仮定するので、潜在変数間の類似性や一貫性を期待するシナリオでは構造を利用できない。
多くのデータセットに存在する補助的特徴の独立性を活用することにより、これらのモデルのよりスケーラブルな拡張を提案する。
論文 参考訳(メタデータ) (2020-11-14T10:24:10Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。