論文の概要: Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism
with Neural Networks
- arxiv url: http://arxiv.org/abs/2310.11398v1
- Date: Tue, 17 Oct 2023 17:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:59:54.942464
- Title: Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism
with Neural Networks
- Title(参考訳): ニューラルネットワークを用いた自己注意機構におけるQKV計算の強化
- Authors: Muhan Zhang
- Abstract要約: 本稿では,QKVを用いたニューラルネットワークの計算手法について検討する。
我々は、IWSLT 2017ドイツ語翻訳タスクデータセットの実験を行い、従来の手法で近似した。
また,Wikitext-103データセットを用いてRobertaモデルをトレーニングする際の優位性を示した。
- 参考スコア(独自算出の注目度): 25.75678339426731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of deep learning, the self-attention mechanism has substantiated
its pivotal role across a myriad of tasks, encompassing natural language
processing and computer vision. Despite achieving success across diverse
applications, the traditional self-attention mechanism primarily leverages
linear transformations for the computation of query, key, and value (QKV),
which may not invariably be the optimal choice under specific circumstances.
This paper probes into a novel methodology for QKV computation-implementing a
specially-designed neural network structure for the calculation. Utilizing a
modified Marian model, we conducted experiments on the IWSLT 2017
German-English translation task dataset and juxtaposed our method with the
conventional approach. The experimental results unveil a significant
enhancement in BLEU scores with our method. Furthermore, our approach also
manifested superiority when training the Roberta model with the Wikitext-103
dataset, reflecting a notable reduction in model perplexity compared to its
original counterpart. These experimental outcomes not only validate the
efficacy of our method but also reveal the immense potential in optimizing the
self-attention mechanism through neural network-based QKV computation, paving
the way for future research and practical applications. The source code and
implementation details for our proposed method can be accessed at
https://github.com/ocislyjrti/NeuralAttention.
- Abstract(参考訳): ディープラーニングの領域では、自己認識メカニズムは、自然言語処理やコンピュータビジョンを含む、無数のタスクにまたがる重要な役割を実証している。
多様なアプリケーションで成功しているにもかかわらず、従来の自己認識メカニズムは主にクエリ、キー、値(QKV)の計算に線形変換を利用する。
本稿では,qkv計算のための新しい手法を探究し,特別に設計されたニューラルネットワーク構造を用いて計算を行う。
改良されたマリアンモデルを用いて、IWSLT 2017ドイツ語翻訳タスクデータセットの実験を行い、従来の手法で近似した。
実験結果から,BLEUスコアの大幅な向上が得られた。
さらに,wikitext-103データセットを用いてrobertaモデルをトレーニングする際にも,モデルのパープレキシティが当初のデータに比べて著しく低下していることを反映して,その優越性が示された。
これらの実験結果から,本手法の有効性を検証できるだけでなく,ニューラルネットワークを用いたqkv計算による自己着脱機構の最適化の可能性も明らかにした。
提案手法のソースコードと実装の詳細はhttps://github.com/ocislyjrti/NeuralAttention.comでアクセスできます。
関連論文リスト
- Deep Learning 2.0: Artificial Neurons That Matter -- Reject Correlation, Embrace Orthogonality [0.0]
ヤット生産型ニューラルネットワークであるニューラルマターネットワーク(NMN)を導入する。
NMNは活性化機能のない非線形パターン認識を実現する。
Yat-MLPは、単純さと有効性を組み合わせたニューラルネットワーク設計の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2024-11-12T16:52:51Z) - Deep Learning and genetic algorithms for cosmological Bayesian inference speed-up [0.0]
本稿では,ネストサンプリングアルゴリズムに特化してベイズ推論を高速化する新しい手法を提案する。
提案手法は,ベイズ推論過程における確率関数を動的に近似するために,フィードフォワードニューラルネットワークを用いてディープラーニングのパワーを利用する。
この実装はネストサンプリングアルゴリズムと統合され、単純な宇宙学のダークエネルギーモデルと多様な観測データセットの両方を用いて徹底的に評価されている。
論文 参考訳(メタデータ) (2024-05-06T09:14:58Z) - On the Markov Property of Neural Algorithmic Reasoning: Analyses and
Methods [94.72563337153268]
ForgetNetは歴史的埋め込みを使わないので、タスクのマルコフの性質と一致している。
また、G-ForgetNetを導入し、G-ForgetNetは歴史的埋め込みの選択的統合を可能にするゲーティング機構を使用している。
我々の実験はCLRS-30アルゴリズム推論ベンチマークに基づいて、ForgetNetとG-ForgetNetの両方が既存の手法よりも優れた一般化を実現することを示した。
論文 参考訳(メタデータ) (2024-03-07T22:35:22Z) - Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。
新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。
我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文 参考訳(メタデータ) (2024-02-20T15:23:24Z) - Robust Neural Pruning with Gradient Sampling Optimization for Residual Neural Networks [0.0]
この研究は、勾配サンプリング最適化技術、特にStochGradAdamをニューラルネットワークのプルーニングプロセスに統合するパイオニアとなる。
我々の主な目的は、資源制約のあるシナリオにおいて重要なプルーニングニューラルネットワークモデルの精度を維持するという重要な課題に対処することである。
論文 参考訳(メタデータ) (2023-12-26T12:19:22Z) - Enhanced quantum state preparation via stochastic prediction of neural
network [0.8287206589886881]
本稿では,ニューラルネットワークの知識盲点を生かして,アルゴリズムの有効性を高めるための興味深い道を探る。
本手法は,半導体ダブル量子ドットシステムにおける任意の量子状態の生成に使用される機械学習アルゴリズムを中心にしている。
ニューラルネットワークが生成した予測を活用することにより、最適化プロセスの導出により、局所最適化を回避できる。
論文 参考訳(メタデータ) (2023-07-27T09:11:53Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。