論文の概要: The Expressibility of Polynomial based Attention Scheme
- arxiv url: http://arxiv.org/abs/2310.20051v1
- Date: Mon, 30 Oct 2023 22:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:26:15.500544
- Title: The Expressibility of Polynomial based Attention Scheme
- Title(参考訳): 多項式に基づく注意体系の表現性
- Authors: Zhao Song, Guangyi Xu, Junze Yin
- Abstract要約: 大規模言語モデル(LLM)は、私たちの日常生活の様々な側面を著しく改善しました。
変換器における注意の二次的複雑さは、長いテキストを処理するためにこれらのモデルをスケールアップする際の課題である。
本稿では,表現的注意力に関する理論的分析を行う。
- 参考スコア(独自算出の注目度): 8.517077915534932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have significantly improved various aspects of
our daily lives. These models have impacted numerous domains, from healthcare
to education, enhancing productivity, decision-making processes, and
accessibility. As a result, they have influenced and, to some extent, reshaped
people's lifestyles. However, the quadratic complexity of attention in
transformer architectures poses a challenge when scaling up these models for
processing long textual contexts. This issue makes it impractical to train very
large models on lengthy texts or use them efficiently during inference. While a
recent study by [KMZ23] introduced a technique that replaces the softmax with a
polynomial function and polynomial sketching to speed up attention mechanisms,
the theoretical understandings of this new approach are not yet well
understood.
In this paper, we offer a theoretical analysis of the expressive capabilities
of polynomial attention. Our study reveals a disparity in the ability of
high-degree and low-degree polynomial attention. Specifically, we construct two
carefully designed datasets, namely $\mathcal{D}_0$ and $\mathcal{D}_1$, where
$\mathcal{D}_1$ includes a feature with a significantly larger value compared
to $\mathcal{D}_0$. We demonstrate that with a sufficiently high degree
$\beta$, a single-layer polynomial attention network can distinguish between
$\mathcal{D}_0$ and $\mathcal{D}_1$. However, with a low degree $\beta$, the
network cannot effectively separate the two datasets. This analysis underscores
the greater effectiveness of high-degree polynomials in amplifying large values
and distinguishing between datasets. Our analysis offers insight into the
representational capacity of polynomial attention and provides a rationale for
incorporating higher-degree polynomials in attention mechanisms to capture
intricate linguistic correlations.
- Abstract(参考訳): 大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を大幅に改善しました。
これらのモデルは、医療から教育、生産性の向上、意思決定プロセス、アクセシビリティなど、多くの領域に影響を与える。
その結果、彼らは人々の生活様式に影響を与え、ある程度変化した。
しかしながら、トランスアーキテクチャにおける注意の二次的複雑さは、長いテキストコンテキストを処理するためにこれらのモデルをスケールアップする際の課題となる。
この問題は、長いテキストで非常に大きなモデルをトレーニングしたり、推論中に効率的に使用するのが現実的ではない。
KMZ23] による最近の研究では, ソフトマックスを多項式関数と多項式スケッチに置き換え, 注意機構を高速化する手法が提案されているが, この新しいアプローチの理論的理解はまだ十分に理解されていない。
本稿では,多項式注意力の表現能力に関する理論的解析を行う。
本研究は,高次・低次多項式注意力の相違を明らかにする。
具体的には、慎重に設計された2つのデータセット、すなわち$\mathcal{D}_0$と$\mathcal{D}_1$を構築します。
十分高い次数$\beta$で、単層多項式注意ネットワークは$\mathcal{D}_0$と$\mathcal{D}_1$を区別できることを示した。
しかし、$\beta$の低いネットワークでは、2つのデータセットを効果的に分離することはできない。
この分析は、大きな値の増幅とデータセットの区別における高次多項式のさらなる有効性を示している。
本解析は,多項式注意の表現能力に関する洞察を与え,高次多項式を注意メカニズムに組み込んで複雑な言語相関を捉えるための理論的根拠を提供する。
関連論文リスト
- Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Polynomial Problems with $SL(2,\mathbb{R})$ Equivariance [6.5783892500847205]
ニューラルネットワークは、高精度を維持しつつ、10倍のスピードアップを実現し、データ駆動方式で効果的に問題を解決することができることを示す。
これらの学習問題は、領域保存線形変換からなる非コンパクト群 $SL(2,mathbbR)$ に同値である。
論文 参考訳(メタデータ) (2023-12-04T18:59:19Z) - PolySketchFormer: Fast Transformers via Sketching Polynomial Kernels [23.99075223506133]
モデル品質を犠牲にすることなくソフトマックスを効果的に置き換えることができることを示す。
本稿では,因果マスキングを効率的に適用するためのブロックベースアルゴリズムを提案する。
PolySketchFormerAttentionは、長いコンテキストを扱える言語モデルを訓練することで実証的に検証する。
論文 参考訳(メタデータ) (2023-10-02T21:39:04Z) - RGCVAE: Relational Graph Conditioned Variational Autoencoder for
Molecule Design [70.59828655929194]
ディープグラフ変分自動エンコーダは、この問題に対処可能な、最も強力な機械学習ツールの1つである。
i)新しい強力なグラフ同型ネットワークを利用した符号化ネットワーク,(ii)新しい確率的復号化コンポーネントを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:23:48Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Analysis of feature learning in weight-tied autoencoders via the mean
field lens [3.553493344868413]
平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
論文 参考訳(メタデータ) (2021-02-16T18:58:37Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Computational Barriers to Estimation from Low-Degree Polynomials [81.67886161671379]
本研究では,隠れ構造物の存在を検知する作業において,低次構造物のパワーについて検討する。
大規模な「信号+雑音」問題に対して、任意の程度に達成可能な最良の平均二乗誤差に対して、ユーザフレンドリな下界を与える。
応用として,植込みサブマトリクスに対する低次平均2乗誤差の厳密な評価と高密度サブグラフ問題について述べる。
論文 参考訳(メタデータ) (2020-08-05T17:52:10Z) - Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。
$Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-06-20T16:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。