論文の概要: Gated recurrent neural networks discover attention
- arxiv url: http://arxiv.org/abs/2309.01775v2
- Date: Wed, 7 Feb 2024 11:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:13:29.452191
- Title: Gated recurrent neural networks discover attention
- Title(参考訳): ゲート型リカレントニューラルネットワークが注目を集める
- Authors: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald,
Maxime Larcher, Angelika Steger, Jo\~ao Sacramento
- Abstract要約: 近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)がトランスフォーマーのパフォーマンスに到達し、さらに超えている。
乗算ゲーティングによるフィードフォワード経路で相互接続された線形リカレント層を備えたRNNが,自己注意を実現する方法を示す。
我々の研究は、ニューラルネットワークにおける乗法的相互作用の重要性を強調し、一部のRNNが予期せずその内部に注意を払っていることを示唆している。
- 参考スコア(独自算出の注目度): 9.113450161370361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent architectural developments have enabled recurrent neural networks
(RNNs) to reach and even surpass the performance of Transformers on certain
sequence modeling tasks. These modern RNNs feature a prominent design pattern:
linear recurrent layers interconnected by feedforward paths with multiplicative
gating. Here, we show how RNNs equipped with these two design elements can
exactly implement (linear) self-attention, the main building block of
Transformers. By reverse-engineering a set of trained RNNs, we find that
gradient descent in practice discovers our construction. In particular, we
examine RNNs trained to solve simple in-context learning tasks on which
Transformers are known to excel and find that gradient descent instills in our
RNNs the same attention-based in-context learning algorithm used by
Transformers. Our findings highlight the importance of multiplicative
interactions in neural networks and suggest that certain RNNs might be
unexpectedly implementing attention under the hood.
- Abstract(参考訳): 近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)は、特定のシーケンスモデリングタスクにおけるトランスフォーマーのパフォーマンスに到達し、さらに上回っている。
現代のRNNは、フィードフォワード経路と乗法ゲーティングで相互接続された線形リカレント層という、顕著なデザインパターンを特徴としている。
本稿では、これら2つの設計要素を備えたrnnが、トランスフォーマのメインビルディングブロックである(線形)自己アテンションを正確に実装できることを示す。
トレーニングされたRNNの集合をリバースエンジニアリングすることで、実際には勾配降下が我々の構成を発見する。
特に,トランスフォーマーが優れていることが分かっている単純なインコンテキスト学習タスクを解決するために訓練されたrnnについて検討し,トランスフォーマーが使用する同じ注意に基づくインコンテキスト学習アルゴリズムに勾配降下が潜んでいることを見出した。
本研究は,ニューラルネットワークにおける乗法的相互作用の重要性を浮き彫りにして,特定のrnnが予期しないほど注意を引いている可能性を示唆する。
関連論文リスト
- On the Design Space Between Transformers and Recursive Neural Nets [64.862738244735]
連続再帰型ニューラルネットワーク(CRvNN)とニューラルデータルータ(NDR)について検討した。
CRvNNは従来のRvNNの境界を押し上げ、その離散的な構造的な構成を緩和し、最終的にTransformerのような構造になる。
NDRはオリジナルのTransformerを制約し、より優れた構造的帰納バイアスを誘発し、CRvNNに近いモデルに終止符を打つ。
論文 参考訳(メタデータ) (2024-09-03T02:03:35Z) - Investigating Sparsity in Recurrent Neural Networks [0.0]
本論文は, プルーニングとスパースリカレントニューラルネットワークがRNNの性能に与える影響を考察することに焦点を当てる。
まず,RNNの刈り込み,RNNの性能への影響,および刈り込み後の精度回復に必要な訓練エポック数について述べる。
次に、スパースリカレントニューラルネットワークの作成と訓練を継続し、その基礎となる任意の構造の性能とグラフ特性の関係を同定する。
論文 参考訳(メタデータ) (2024-07-30T07:24:58Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Use of Parallel Explanatory Models to Enhance Transparency of Neural Network Configurations for Cell Degradation Detection [18.214293024118145]
我々は,ニューラルネットワークの内部動作を照らし,理解するための並列モデルを構築している。
RNNの各層が入力分布を変換して検出精度を高める方法を示す。
同時に、精度の向上を制限するために作用する副作用も発見する。
論文 参考訳(メタデータ) (2024-04-17T12:22:54Z) - RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval [14.378613219812221]
長いシーケンスの処理においてメモリ効率が知られているRNNがトランスフォーマーの性能にマッチするかどうかを理解することに注力する。
重要なボトルネックは、Chain-of-Thought(CoT)であっても、RNNがコンテキストから情報を完全に取得できないことだ。
Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を向上する手法を採用することで,CoT によるリアルタイム解決可能な問題を解くことができることを示す。
論文 参考訳(メタデータ) (2024-02-28T17:38:06Z) - NAR-Former V2: Rethinking Transformer for Universal Neural Network
Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。
具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。
我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文 参考訳(メタデータ) (2023-06-19T09:11:04Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Learning Ability of Interpolating Deep Convolutional Neural Networks [28.437011792990347]
我々は,深層ニューラルネットワーク,深層畳み込みニューラルネットワーク(DCNN)の重要なファミリーの学習能力について検討する。
非補間DCNNに適切に定義された層を追加することで、非補間DCNNの良好な学習率を維持する補間DCNNが得られることを示す。
我々の研究は、過度に適合したDCNNの一般化の理論的検証を提供する。
論文 参考訳(メタデータ) (2022-10-25T17:22:31Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Neuroevolution of a Recurrent Neural Network for Spatial and Working
Memory in a Simulated Robotic Environment [57.91534223695695]
我々は,ラットで観察される行動と神経活動を再現する進化的アルゴリズムを用いて,生物学的に有意なリカレントニューラルネットワーク(RNN)でウェイトを進化させた。
提案手法は, 進化したRNNの動的活動が, 興味深く複雑な認知行動をどのように捉えているかを示す。
論文 参考訳(メタデータ) (2021-02-25T02:13:52Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。