論文の概要: Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
- arxiv url: http://arxiv.org/abs/2510.00184v1
- Date: Tue, 30 Sep 2025 19:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.216364
- Title: Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
- Title(参考訳): なぜトランスフォーマーは乗算を学べないのか?
- Authors: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee,
- Abstract要約: 言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
- 参考スコア(独自算出の注目度): 54.57326125204404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are increasingly capable, yet still fail at a seemingly simple task of multi-digit multiplication. In this work, we study why, by reverse-engineering a model that successfully learns multiplication via \emph{implicit chain-of-thought}, and report three findings: (1) Evidence of long-range structure: Logit attributions and linear probes indicate that the model encodes the necessary long-range dependencies for multi-digit multiplication. (2) Mechanism: the model encodes long-range dependencies using attention to construct a directed acyclic graph to ``cache'' and ``retrieve'' pairwise partial products. (3) Geometry: the model implements partial products in attention heads by forming Minkowski sums between pairs of digits, and digits are represented using a Fourier basis, both of which are intuitive and efficient representations that the standard fine-tuning model lacks. With these insights, we revisit the learning dynamics of standard fine-tuning and find that the model converges to a local optimum that lacks the required long-range dependencies. We further validate this understanding by introducing an auxiliary loss that predicts the ``running sum'' via a linear regression probe, which provides an inductive bias that enables the model to successfully learn multi-digit multiplication. In summary, by reverse-engineering the mechanisms of an implicit chain-of-thought model we uncover a pitfall for learning long-range dependencies in Transformers and provide an example of how the correct inductive bias can address this issue.
- Abstract(参考訳): 言語モデルはますます有能になるが、多桁乗算という一見単純なタスクではまだ失敗している。
本研究では,<emph{implicit chain-of-thinkt} を通じて乗法をうまく学習するモデルをリバースエンジニアリングすることによって,(1) 長距離構造の証拠: ログ属性と線形プローブにより,モデルがマルチ桁乗法に必要な長距離依存性を符号化していることを示す。
2) メカニズム: モデルは注意を使って長距離依存を符号化し、 'cache' と 'retrieve' のペア部分積への有向非巡回グラフを構築する。
(3) 幾何: モデルは、一対の桁の間にミンコフスキー和を形成し、桁はフーリエ基底で表されるので、どちらも標準的な微調整モデルに欠けている直感的かつ効率的な表現である。
これらの知見により、標準的な微調整の学習力学を再考し、モデルは所要の長距離依存を欠いた局所的な最適値に収束することを示した。
線形回帰プローブを用いて'running sum'を予測する補助的損失を導入することで、この理解をさらに検証し、モデルがマルチ桁乗算をうまく学べるように誘導バイアスを与える。
要約すると、暗黙のチェーン・オブ・思想モデルのメカニズムをリバースエンジニアリングすることで、トランスフォーマーの長距離依存を学習するための落とし穴を発見し、正しい帰納的バイアスがこの問題にどのように対処できるかの例を示します。
関連論文リスト
- Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Quantized Fourier and Polynomial Features for more Expressive Tensor
Network Models [9.18287948559108]
モデル重みを過度にパラメータ化されたテンソルネットワークに制約することで,特徴量に存在するテンソル構造を利用する。
同じ数のモデルパラメータに対して、結果の量子化モデルは、その非量子化モデルとは対照的に、VC次元に高いバウンドを持つことを示す。
論文 参考訳(メタデータ) (2023-09-11T13:18:19Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - The Effects of Invertibility on the Representational Complexity of
Encoders in Variational Autoencoders [16.27499951949733]
生成写像が「強可逆(strongly invertible)」であれば、推論モデルはそれほど複雑ではないことを示す。
重要なのは、生成モデルが階層的に可逆である必要はないということです。
低次元多様体上にデータを置くと、深層生成モデルの学習が難しくなるという経験的知恵を理論的に支持する。
論文 参考訳(メタデータ) (2021-07-09T19:53:29Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - A Solution for Large Scale Nonlinear Regression with High Rank and
Degree at Constant Memory Complexity via Latent Tensor Reconstruction [0.0]
本稿では,高非線形多変量関数を例から学習する新しい手法を提案する。
この手法は、連続函数をバイスで近似できるという性質を生かし、テンソルで表現できる。
モデルを学習するために,線形時間で実装可能な効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T14:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。