論文の概要: Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations
- arxiv url: http://arxiv.org/abs/2408.10920v1
- Date: Tue, 20 Aug 2024 15:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:35:03.934444
- Title: Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations
- Title(参考訳): 非線形表現を用いた時系列の保存と生成を学習するリカレントニューラルネットワーク
- Authors: Róbert Csordás, Christopher Potts, Christopher D. Manning, Atticus Geiger,
- Abstract要約: 線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
- 参考スコア(独自算出の注目度): 54.17275171325324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Linear Representation Hypothesis (LRH) states that neural networks learn to encode concepts as directions in activation space, and a strong version of the LRH states that models learn only such encodings. In this paper, we present a counterexample to this strong LRH: when trained to repeat an input token sequence, gated recurrent neural networks (RNNs) learn to represent the token at each position with a particular order of magnitude, rather than a direction. These representations have layered features that are impossible to locate in distinct linear subspaces. To show this, we train interventions to predict and manipulate tokens by learning the scaling factor corresponding to each sequence position. These interventions indicate that the smallest RNNs find only this magnitude-based solution, while larger RNNs have linear representations. These findings strongly indicate that interpretability research should not be confined by the LRH.
- Abstract(参考訳): 線形表現仮説(LRH)は、ニューラルネットワークが活性化空間の方向として概念をエンコードすることを学習し、LRHの強いバージョンはモデルがそのようなエンコードのみを学ぶことを述べている。
本稿では,この強力なLRHに対する反例として,入力トークンシーケンスを繰り返すように訓練された場合,ゲート型リカレントニューラルネットワーク(RNN)は,方向ではなく,特定の順序で各位置でトークンを表現することを学習する。
これらの表現は、異なる線型部分空間を見つけることが不可能な階層的特徴を持つ。
これを示すために、各シーケンス位置に対応するスケーリング係数を学習することでトークンを予測および操作するための介入を訓練する。
これらの介入は、最小のRNNがこの等級に基づく解のみを見出すのに対して、より大きなRNNは線形表現を持つことを示している。
これらの知見は、解釈可能性の研究はLRHによって制限されるべきでないことを強く示唆している。
関連論文リスト
- Half-Space Feature Learning in Neural Networks [2.3249139042158853]
現在、ニューラルネットワークの特徴学習には2つの極端な視点がある。
どちらの解釈も、新しい観点からは正しいとは考えにくい。
私たちはこの代替解釈を使って、Deep Linearly Gated Network (DLGN)と呼ばれるモデルを動かす。
論文 参考訳(メタデータ) (2024-04-05T12:03:19Z) - Instance-wise Linearization of Neural Network for Model Interpretation [13.583425552511704]
この課題は、ニューラルネットワークの非線形動作に潜むことができる。
ニューラルネットワークモデルでは、非線形な振る舞いはモデルの非線形なアクティベーションユニットによって引き起こされることが多い。
本稿では,ニューラルネットワーク予測のフォワード計算過程を再構成するインスタンスワイズ線形化手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T02:07:39Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Learning and Generalization in RNNs [11.107204912245841]
単純なリカレントニューラルネットワークがシーケンスの関数を学習できることを実証する。
新しいアイデアは、我々の証明でRNNの隠れた状態から情報を抽出することを可能にする。
論文 参考訳(メタデータ) (2021-05-31T18:27:51Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Understanding Recurrent Neural Networks Using Nonequilibrium Response
Theory [5.33024001730262]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルデータの解析に機械学習で広く使用される脳モデルである。
非平衡統計力学からの応答理論を用いてRNNが入力信号を処理する方法を示す。
論文 参考訳(メタデータ) (2020-06-19T10:09:09Z) - The Power of Linear Recurrent Neural Networks [1.124958340749622]
自己回帰線形,すなわち線形活性化リカレントニューラルネットワーク(LRNN)が,任意の時間依存関数f(t)を近似できることを示す。
LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。
論文 参考訳(メタデータ) (2018-02-09T15:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。