Fugu-MT 論文翻訳(概要): Looped ReLU MLPs May Be All You Need as Practical Programmable Computers

論文の概要: Looped ReLU MLPs May Be All You Need as Practical Programmable Computers

arxiv url: http://arxiv.org/abs/2410.09375v1
Date: Sat, 12 Oct 2024 05:54:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 14:44:04.882397
Title: Looped ReLU MLPs May Be All You Need as Practical Programmable Computers
Title（参考訳）: ループしたReLU MLPは、プログラム可能なコンピュータとして必要なもの
Authors: Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou,
Abstract要約: 2層ニューラルネットワークは、指数的に多くの隠れたニューロンが与えられる普遍的な近似器である。仮に$mathsfReLU$-$mathsfMLP$が、現実的な数の重みを使って普遍的にプログラム可能なコンピュータにできるかどうかは不明である。
参考スコア（独自算出の注目度）: 17.086679273053853
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Previous work has demonstrated that attention mechanisms are Turing complete. More recently, it has been shown that a looped 13-layer Transformer can function as a universal programmable computer. In contrast, the multi-layer perceptrons with $\mathsf{ReLU}$ activation ($\mathsf{ReLU}$-$\mathsf{MLP}$), one of the most fundamental components of neural networks, is known to be expressive; specifically, a two-layer neural network is a universal approximator given an exponentially large number of hidden neurons. However, it remains unclear whether a $\mathsf{ReLU}$-$\mathsf{MLP}$ can be made into a universal programmable computer using a practical number of weights. In this work, we provide an affirmative answer that a looped 23-layer $\mathsf{ReLU}$-$\mathsf{MLP}$ is capable to perform the basic necessary operations, effectively functioning as a programmable computer. This indicates that simple modules have stronger expressive power than previously expected and have not been fully explored. Our work provides insights into the mechanisms of neural networks and demonstrates that complex tasks, such as functioning as a programmable computer, do not necessarily require advanced architectures like Transformers.
Abstract（参考訳）: これまでの研究は、注意機構がチューリング完全であることを実証してきた。最近では、ループ型13層トランスフォーマーが普遍的なプログラマブルコンピュータとして機能することが示されている。対照的に、ニューラルネットワークの最も基本的な構成要素の1つである$\mathsf{ReLU}$Activation$\mathsf{ReLU}$-$\mathsf{MLP}$の多層パーセプトロンは表現力があることが知られている。しかし、$\mathsf{ReLU}$-$\mathsf{MLP}$が実用的な重みを使って普遍的にプログラム可能なコンピュータにできるかどうかは不明である。本研究では,ループ化された23層の$\mathsf{ReLU}$-$\mathsf{MLP}$が,プログラム可能なコンピュータとして機能し,基本的な操作を行うことができることを示す。このことは、単純な加群が以前予想されていたよりも強い表現力を持ち、完全には探索されていないことを示している。私たちの研究は、ニューラルネットワークのメカニズムに関する洞察を提供し、プログラム可能なコンピュータとして機能するといった複雑なタスクが、トランスフォーマーのような高度なアーキテクチャを必ずしも必要としないことを示した。

関連論文リスト

Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文参考訳（メタデータ） (2025-04-07T03:08:12Z)
Neural Networks and (Virtual) Extended Formulations [5.762677915745415]
ニューラルネットワークのサイズに対する低い境界を、その代表的能力を拡張複雑性(mathrmxc(P)$)の概念にリンクすることで証明する。通常の拡張複雑性の強力な結果は、モノトーンニューラルネットワークの下位境界に変換可能であることを示す。
論文参考訳（メタデータ） (2024-11-05T11:12:11Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Fourier Circuits in Neural Networks and Transformers: A Case Study of Modular Arithmetic with Multiple Inputs [35.212818841550835]
一層ニューラルネットワークと一層トランスフォーマーの研究を行った。 1つの隠れた層ニューラルネットワークは、データセット上で最大$L_2,k+1$-marginに達する。同様の計算機構を1層変換器に注意して観察する。
論文参考訳（メタデータ） (2024-02-12T05:52:06Z)
Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文参考訳（メタデータ） (2023-11-23T02:19:32Z)
A Neural Lambda Calculus: Neurosymbolic AI meets the foundations of computing and functional programming [0.0]
我々は、プログラム全体の実行方法を学ぶニューラルネットワークの能力を分析する。統合型ニューラルラーニングと電卓形式化の導入について紹介する。
論文参考訳（メタデータ） (2023-04-18T20:30:16Z)
Looped Transformers as Programmable Computers [48.00010456819222]
本稿では,トランスフォーマーネットワークを,特定の重みでプログラミングし,ループに配置することで,ユニバーサルコンピュータとして利用するフレームワークを提案する。我々の入力シーケンスは、データ読み書きのための命令とメモリからなるパンチカードとして機能する。この変換器は、入力によって指示され、基本計算器、基本線形代数ライブラリ、およびバックプロパゲーションを用いたコンテキスト内学習アルゴリズムをエミュレートできることを示す。
論文参考訳（メタデータ） (2023-01-30T18:57:31Z)
Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文参考訳（メタデータ） (2022-10-19T17:45:48Z)
Encoding Integers and Rationals on Neuromorphic Computers using Virtual Neuron [0.0]
仮想ニューロンを整数と有理数の符号化機構として提示する。本研究では,23nJのエネルギーを混合信号メムリスタベースニューロモルフィックプロセッサを用いて平均的に加算操作を行うことができることを示す。
論文参考訳（メタデータ） (2022-08-15T23:18:26Z)
Statistically Meaningful Approximation: a Case Study on Approximating Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文参考訳（メタデータ） (2021-07-28T04:28:55Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
Neuromorphic Computing is Turing-Complete [0.0]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、人間の脳をエミュレートして計算を行う非ヴォンノイマン計算パラダイムである。ニューロモルフィックシステムはエネルギー効率が非常に高く、cpuやgpuの数千倍の消費電力で知られている。我々は、すべてのmu再帰関数とすべてのmu再帰演算子を計算するためのニューロモルフィック回路を考案する。
論文参考訳（メタデータ） (2021-04-28T19:25:01Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)
Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。 $Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文参考訳（メタデータ） (2020-06-20T16:23:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。