論文の概要: Recasting Self-Attention with Holographic Reduced Representations
- arxiv url: http://arxiv.org/abs/2305.19534v1
- Date: Wed, 31 May 2023 03:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:37:59.444412
- Title: Recasting Self-Attention with Holographic Reduced Representations
- Title(参考訳): ホログラフィ還元表現による自己認識のリキャスト
- Authors: Mohammad Mahmudul Alam, Edward Raff, Stella Biderman, Tim Oates, James
Holt
- Abstract要約: マルウェア検出の問題に触発された我々は,ホログラフィックリダクション(HRR)のニューロシンボリックアプローチを用いて,自己アテンションを再キャストする。
我々は、 $mathcalO(T H log H)$ time complexity, $mathcalO(T H)$ space complexity, and convergence in 10times$ less epochs などの利点を得る。
我々のHrrformerはLRAベンチマークでほぼ最先端の精度を実現しています。
- 参考スコア(独自算出の注目度): 31.89878931813593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, self-attention has become the dominant paradigm for sequence
modeling in a variety of domains. However, in domains with very long sequence
lengths the $\mathcal{O}(T^2)$ memory and $\mathcal{O}(T^2 H)$ compute costs
can make using transformers infeasible. Motivated by problems in malware
detection, where sequence lengths of $T \geq 100,000$ are a roadblock to deep
learning, we re-cast self-attention using the neuro-symbolic approach of
Holographic Reduced Representations (HRR). In doing so we perform the same
high-level strategy of the standard self-attention: a set of queries matching
against a set of keys, and returning a weighted response of the values for each
key. Implemented as a ``Hrrformer'' we obtain several benefits including
$\mathcal{O}(T H \log H)$ time complexity, $\mathcal{O}(T H)$ space complexity,
and convergence in $10\times$ fewer epochs. Nevertheless, the Hrrformer
achieves near state-of-the-art accuracy on LRA benchmarks and we are able to
learn with just a single layer. Combined, these benefits make our Hrrformer the
first viable Transformer for such long malware classification sequences and up
to $280\times$ faster to train on the Long Range Arena benchmark. Code is
available at
\url{https://github.com/NeuromorphicComputationResearchProgram/Hrrformer}
- Abstract(参考訳): 近年、自己注意は様々な領域におけるシーケンスモデリングの主要なパラダイムとなっている。
しかし、非常に長いシーケンス長を持つドメインでは、$\mathcal{O}(T^2)$メモリと$\mathcal{O}(T^2 H)$計算コストは変換器の使用を不可能にする。
マルウェア検出における問題により、T \geq 100,000$のシーケンス長がディープラーニングの障害となるため、ホログラフィック・リダクテッド・表現(HRR)のニューロシンボリック・アプローチを用いて、自己認識を再放送する。
そうすることで、標準のセルフアテンションと同じハイレベルな戦略を実行します。キーのセットにマッチするクエリセットと、各キーの値の重み付きレスポンスを返します。
Hrrformer' として実装され、時間複雑性 $\mathcal{O}(T H \log H)$時間複雑性 $\mathcal{O}(T H)$空間複雑性 $\mathcal{O}(T H)$空間複雑性および10\times$少ないエポックの収束を含むいくつかの利点が得られる。
それでも、HrrformerはLRAベンチマークでほぼ最先端の精度を実現しており、単一の層で学習することができる。
これらのメリットを組み合わせることで、Hrrformerは、このような長いマルウェア分類シーケンスの最初の実行可能なTransformerとなり、Long Range Arenaベンチマークでトレーニングするのに最大280\times$が高速になります。
コードは \url{https://github.com/NeuromorphicComputationResearchProgram/Hrrformer} で入手できる。
関連論文リスト
- Breaking the Curse of Dimensionality with Distributed Neural Computation [17.571316365665673]
本稿では,複数のマシンに分散可能なニューラルネットワークアルゴリズムを用いて,次元の呪いを克服する理論的アプローチを提案する。
VRAMに少数のパラメータをロードするだけで任意の精度を達成できます。
論文 参考訳(メタデータ) (2024-02-05T19:11:57Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Replicability in Reinforcement Learning [46.89386344741442]
生成モデルにアクセス可能なディスカウント型MDPの基本設定に焦点をあてる。
ImpagliazzoらにインスパイアされたRLアルゴリズムは、高い確率で2回の実行後に全く同じポリシーを出力した場合、複製可能である。
論文 参考訳(メタデータ) (2023-05-31T05:16:23Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Model Selection with Near Optimal Rates for Reinforcement Learning with
General Model Classes [27.361399036211694]
有限地平線エピソディック強化学習(RL)問題に対するモデル選択の問題に対処する。
モデル選択フレームワークでは、$mathcalP*$の代わりに、遷移カーネルのネストされたファミリーが$M$を与えられる。
textttARL-GENが$TildemathcalO(d_mathcalE* H2+sqrtd_mathcalE* mathbbM* H2T)$の後悔を得ることを示す。
論文 参考訳(メタデータ) (2021-07-13T05:00:38Z) - Linear-Time Gromov Wasserstein Distances using Low Rank Couplings and
Costs [45.87981728307819]
異種空間に居住する関連するデータセットを比較して整列する能力は、機械学習においてますます重要な役割を担っている。
グロモフ・ワッサーシュタイン (Gromov-Wasserstein, GW) 形式主義はこの問題に対処するのに役立つ。
論文 参考訳(メタデータ) (2021-06-02T12:50:56Z) - Hybrid Stochastic-Deterministic Minibatch Proximal Gradient:
Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。
損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:18:44Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。