論文の概要: Can Transformers Learn to Solve Problems Recursively?
- arxiv url: http://arxiv.org/abs/2305.14699v2
- Date: Sun, 25 Jun 2023 18:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:41:19.032004
- Title: Can Transformers Learn to Solve Problems Recursively?
- Title(参考訳): トランスフォーマーは問題を再帰的に解けるか?
- Authors: Shizhuo Dylan Zhang, Curt Tigges, Stella Biderman, Maxim Raginsky,
Talia Ringer
- Abstract要約: 本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
- 参考スコア(独自算出の注目度): 9.5623664764386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks have in recent years shown promise for helping software
engineers write programs and even formally verify them. While semantic
information plays a crucial part in these processes, it remains unclear to what
degree popular neural architectures like transformers are capable of modeling
that information. This paper examines the behavior of neural networks learning
algorithms relevant to programs and formal verification proofs through the lens
of mechanistic interpretability, focusing in particular on structural
recursion. Structural recursion is at the heart of tasks on which symbolic
tools currently outperform neural models, like inferring semantic relations
between datatypes and emulating program behavior. We evaluate the ability of
transformer models to learn to emulate the behavior of structurally recursive
functions from input-output examples. Our evaluation includes empirical and
conceptual analyses of the limitations and capabilities of transformer models
in approximating these functions, as well as reconstructions of the ``shortcut"
algorithms the model learns. By reconstructing these algorithms, we are able to
correctly predict 91 percent of failure cases for one of the approximated
functions. Our work provides a new foundation for understanding the behavior of
neural networks that fail to solve the very tasks they are trained for.
- Abstract(参考訳): 近年、ニューラルネットワークはソフトウェアエンジニアがプログラムを書くのを手助けし、それを正式に検証することを約束している。
セマンティック情報はこれらのプロセスにおいて重要な役割を担っているが、トランスフォーマーのような一般的なニューラルネットワークがどの程度その情報をモデル化できるかは不明だ。
本稿では,特に構造的再帰に着目し,機械的解釈可能性のレンズによるプログラムと形式的証明に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
構造的再帰は、データ型間のセマンティックな関係の推測やプログラムの振る舞いのエミュレートなど、現在、象徴的なツールがニューラルモデルを上回っているタスクの中心である。
入力-出力例から構造的再帰関数の挙動をエミュレートするトランスフォーマティブモデルの能力を評価する。
我々の評価には、これらの関数を近似するトランスフォーマーモデルの限界と能力の実証的および概念的分析と、モデルが学習する ``shortcut' アルゴリズムの再構成が含まれる。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
私たちの研究は、トレーニングされたタスクの解決に失敗するニューラルネットワークの振る舞いを理解するための、新たな基盤を提供します。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文 参考訳(メタデータ) (2024-09-14T00:30:57Z) - Emergence in non-neural models: grokking modular arithmetic via average gradient outer product [16.911836722312152]
グラッキングはニューラルネットワークや勾配降下に基づく最適化に特有ではないことを示す。
この現象はRecursive Feature Machinesを用いてモジュラー算術を学習する際に発生する。
この結果から,タスク関連の特徴を学習することで,創発が純粋に引き起こされることが示された。
論文 参考訳(メタデータ) (2024-07-29T17:28:58Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - Break It Down: Evidence for Structural Compositionality in Neural
Networks [32.382094867951224]
ニューラルネットワークは構成性を学習し、特殊なシンボリックメカニズムの必要性を回避できることを示す。
このことは、ニューラルネットワークが構成性を学ぶことができ、特別なシンボリックメカニズムの必要性を回避できる可能性を示唆している。
論文 参考訳(メタデータ) (2023-01-26T00:53:11Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Gaussian Process Surrogate Models for Neural Networks [6.8304779077042515]
科学と工学において、モデリング(英: modeling)とは、内部プロセスが不透明な複雑なシステムを理解するために用いられる方法論である。
本稿では,ガウス過程を用いたニューラルネットワークの代理モデルのクラスを構築する。
提案手法は,ニューラルネットワークのスペクトルバイアスに関連する既存の現象を捕捉し,サロゲートモデルを用いて現実的な問題を解決することを実証する。
論文 参考訳(メタデータ) (2022-08-11T20:17:02Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。