論文の概要: How Do Transformers Learn Variable Binding in Symbolic Programs?
- arxiv url: http://arxiv.org/abs/2505.20896v1
- Date: Tue, 27 May 2025 08:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.522034
- Title: How Do Transformers Learn Variable Binding in Symbolic Programs?
- Title(参考訳): シンボリックプログラムにおけるトランスフォーマーの学習方法
- Authors: Yiwei Wu, Atticus Geiger, Raphaël Millière,
- Abstract要約: シンボリックプログラムにおいて、クエリされた変数を非参照するようにTransformerを訓練する。
このモデルでは、残余ストリームをアドレス可能なメモリ空間として活用することを学びました。
- 参考スコア(独自算出の注目度): 5.611678524375841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variable binding -- the ability to associate variables with values -- is fundamental to symbolic computation and cognition. Although classical architectures typically implement variable binding via addressable memory, it is not well understood how modern neural networks lacking built-in binding operations may acquire this capacity. We investigate this by training a Transformer to dereference queried variables in symbolic programs where variables are assigned either numerical constants or other variables. Each program requires following chains of variable assignments up to four steps deep to find the queried value, and also contains irrelevant chains of assignments acting as distractors. Our analysis reveals a developmental trajectory with three distinct phases during training: (1) random prediction of numerical constants, (2) a shallow heuristic prioritizing early variable assignments, and (3) the emergence of a systematic mechanism for dereferencing assignment chains. Using causal interventions, we find that the model learns to exploit the residual stream as an addressable memory space, with specialized attention heads routing information across token positions. This mechanism allows the model to dynamically track variable bindings across layers, resulting in accurate dereferencing. Our results show how Transformer models can learn to implement systematic variable binding without explicit architectural support, bridging connectionist and symbolic approaches.
- Abstract(参考訳): 変数と値を関連付けることのできる変数バインディングは、シンボル計算と認識に基本的です。
古典的アーキテクチャは通常、アドレス可能なメモリを介して変数バインディングを実装するが、ビルトインバインディング操作を欠いた現代のニューラルネットワークが、どのようにしてこの能力を獲得するかはよく理解されていない。
本研究では,変数が数値定数あるいは他の変数に割り当てられるシンボルプログラムにおいて,クエリー変数の参照を代行するトランスフォーマーを訓練することによってこれを検証する。
各プログラムは、クエリされた値を見つけるために、最大4ステップの可変代入の連鎖に従うことを必要とし、また、イントラクタとして機能する、無関係な代入の連鎖も含んでいる。
本分析では,(1)数値定数のランダムな予測,(2)初期変数の割り当てを過度に優先順位付けする浅層ヒューリスティックな優先順位付け,(3)配列チェーンを非参照する体系的なメカニズムの出現という,3つの段階の発達過程を明らかにした。
因果的介入を用いることで,残差ストリームをアドレス可能なメモリ空間として活用し,トークン位置を横断する特別なアテンションヘッドルーティング情報を用いて学習する。
このメカニズムにより、モデルがレイヤ間の変数バインディングを動的に追跡し、正確な参照が可能である。
この結果から,トランスフォーマーモデルでは,明示的なアーキテクチャサポートやブリッジ接続,シンボリックアプローチを使わずに,体系的な変数バインディングを実現することができることを示す。
関連論文リスト
- Alternatives of Unsupervised Representations of Variables on the Latent Space [0.0]
本稿では,変分オートエンコーダ(β-VAE)を適用して,2次元潜在空間上の変数を表現するための教師なし機械学習の適用について述べる。
潜在空間上の変数を表現するために、5つの異なる方法が導入された。
β-VAEによる変数表現の28のアプローチが検討されている。
論文 参考訳(メタデータ) (2024-10-26T13:06:35Z) - Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - A Pattern Language for Machine Learning Tasks [0.0]
学習者の合成に対する等式制約として,目的関数の本質的データを定式化する。
1)ドメイン間における機械学習のアプローチの統一的な視点を提供し,(2)望ましい振る舞いをモデルに依存しない設計と最適化し,(3)理論的コンピュータ科学からの洞察を実践的な機械学習へインポートする。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - Scalable variable selection for two-view learning tasks with projection
operators [0.0]
本稿では,2視点設定やベクトル値による教師付き学習問題に対して,新しい変数選択法を提案する。
当社のフレームワークは,データサンプルの数が数百万にものぼる,非常に大規模な選択タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-04T08:22:05Z) - Do Transformers use variable binding? [14.222494511474103]
ディープニューラルネットワーク(DNN)の説明可能性を高めるには、シンボリック計算を実装するかどうかを評価する必要がある。
1つの中心的なシンボル容量は変数バインディングであり、入力値をシステム内部メモリに保持されている抽象変数にリンクする。
本稿では,最先端トランスフォーマーネットワークBERTとRoBERTaの可変結合容量を初めて体系的に評価する。
論文 参考訳(メタデータ) (2022-02-19T09:56:38Z) - VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文 参考訳(メタデータ) (2021-12-05T18:40:32Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Training or Architecture? How to Incorporate Invariance in Neural
Networks [14.162739081163444]
本稿では,グループ行動に関して,ネットワークアーキテクチャを確実に不変化する手法を提案する。
簡単に言えば、実際のネットワークにデータを送る前に、可能なトランスフォーメーションを“無効化”するつもりです。
このような手法の特性を解析し、等変ネットワークに拡張し、その利点を頑健さと計算効率の両面からいくつかの数値例で示す。
論文 参考訳(メタデータ) (2021-06-18T10:31:00Z) - RE-MIMO: Recurrent and Permutation Equivariant Neural MIMO Detection [85.44877328116881]
無線通信システムにおけるシンボル検出のための新しいニューラルネットワークを提案する。
無線通信システムにおけるいくつかの重要な考察に動機付けられている。
その性能を既存手法と比較し,ネットワークが可変数の送信機を効率的に処理できることを示す。
論文 参考訳(メタデータ) (2020-06-30T22:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。