論文の概要: Can Transformers Learn to Solve Problems Recursively?
- arxiv url: http://arxiv.org/abs/2305.14699v2
- Date: Sun, 25 Jun 2023 18:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:41:19.032004
- Title: Can Transformers Learn to Solve Problems Recursively?
- Title(参考訳): トランスフォーマーは問題を再帰的に解けるか?
- Authors: Shizhuo Dylan Zhang, Curt Tigges, Stella Biderman, Maxim Raginsky,
Talia Ringer
- Abstract要約: 本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
- 参考スコア(独自算出の注目度): 9.5623664764386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks have in recent years shown promise for helping software
engineers write programs and even formally verify them. While semantic
information plays a crucial part in these processes, it remains unclear to what
degree popular neural architectures like transformers are capable of modeling
that information. This paper examines the behavior of neural networks learning
algorithms relevant to programs and formal verification proofs through the lens
of mechanistic interpretability, focusing in particular on structural
recursion. Structural recursion is at the heart of tasks on which symbolic
tools currently outperform neural models, like inferring semantic relations
between datatypes and emulating program behavior. We evaluate the ability of
transformer models to learn to emulate the behavior of structurally recursive
functions from input-output examples. Our evaluation includes empirical and
conceptual analyses of the limitations and capabilities of transformer models
in approximating these functions, as well as reconstructions of the ``shortcut"
algorithms the model learns. By reconstructing these algorithms, we are able to
correctly predict 91 percent of failure cases for one of the approximated
functions. Our work provides a new foundation for understanding the behavior of
neural networks that fail to solve the very tasks they are trained for.
- Abstract(参考訳): 近年、ニューラルネットワークはソフトウェアエンジニアがプログラムを書くのを手助けし、それを正式に検証することを約束している。
セマンティック情報はこれらのプロセスにおいて重要な役割を担っているが、トランスフォーマーのような一般的なニューラルネットワークがどの程度その情報をモデル化できるかは不明だ。
本稿では,特に構造的再帰に着目し,機械的解釈可能性のレンズによるプログラムと形式的証明に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
構造的再帰は、データ型間のセマンティックな関係の推測やプログラムの振る舞いのエミュレートなど、現在、象徴的なツールがニューラルモデルを上回っているタスクの中心である。
入力-出力例から構造的再帰関数の挙動をエミュレートするトランスフォーマティブモデルの能力を評価する。
我々の評価には、これらの関数を近似するトランスフォーマーモデルの限界と能力の実証的および概念的分析と、モデルが学習する ``shortcut' アルゴリズムの再構成が含まれる。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
私たちの研究は、トレーニングされたタスクの解決に失敗するニューラルネットワークの振る舞いを理解するための、新たな基盤を提供します。
関連論文リスト
- Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - Break It Down: Evidence for Structural Compositionality in Neural
Networks [32.382094867951224]
ニューラルネットワークは構成性を学習し、特殊なシンボリックメカニズムの必要性を回避できることを示す。
このことは、ニューラルネットワークが構成性を学ぶことができ、特別なシンボリックメカニズムの必要性を回避できる可能性を示唆している。
論文 参考訳(メタデータ) (2023-01-26T00:53:11Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Gaussian Process Surrogate Models for Neural Networks [6.8304779077042515]
科学と工学において、モデリング(英: modeling)とは、内部プロセスが不透明な複雑なシステムを理解するために用いられる方法論である。
本稿では,ガウス過程を用いたニューラルネットワークの代理モデルのクラスを構築する。
提案手法は,ニューラルネットワークのスペクトルバイアスに関連する既存の現象を捕捉し,サロゲートモデルを用いて現実的な問題を解決することを実証する。
論文 参考訳(メタデータ) (2022-08-11T20:17:02Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Can deep neural networks learn process model structure? An assessment
framework and analysis [0.2580765958706854]
本稿では,新しい適合度,精度,一般化の指標を補完する評価手法を提案する。
このフレームワークを単純な制御-フローの振る舞いを持つ複数のプロセスモデルに適用する。
以上の結果から, 単純化モデルにおいても, オーバーフィッティング対策の注意深い調整が必要であることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T09:44:13Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Spiking Neural Networks Hardware Implementations and Challenges: a
Survey [53.429871539789445]
スパイキングニューラルネットワークは、ニューロンとシナプスの操作原理を模倣する認知アルゴリズムである。
スパイキングニューラルネットワークのハードウェア実装の現状について述べる。
本稿では,これらのイベント駆動アルゴリズムの特性をハードウェアレベルで活用するための戦略について論じる。
論文 参考訳(メタデータ) (2020-05-04T13:24:00Z) - Teaching Recurrent Neural Networks to Modify Chaotic Memories by Example [14.91507266777207]
繰り返しニューラルネットワークは,実例のみを用いて複雑な情報の表現を変更できることが示される。
我々は,これらの計算を学習するためのメカニズムを提供し,一つのネットワークが同時に複数の計算を学習できることを実証する。
論文 参考訳(メタデータ) (2020-05-03T20:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。