論文の概要: On the Mirage of Long-Range Dependency, with an Application to Integer Multiplication
- arxiv url: http://arxiv.org/abs/2603.29069v1
- Date: Mon, 30 Mar 2026 23:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.943066
- Title: On the Mirage of Long-Range Dependency, with an Application to Integer Multiplication
- Title(参考訳): 長距離依存性のミラージュと整数乗算への応用について
- Authors: Zichao Wei,
- Abstract要約: 計算の乗算は長い間 ニューラルネットワークにとって難しい問題と考えられてきました
我々は、長距離依存は乗法の本質的な性質ではなく、時空の選択によって生成されるミラージュであると主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integer multiplication has long been considered a hard problem for neural networks, with the difficulty widely attributed to the O(n) long-range dependency induced by carry chains. We argue that this diagnosis is wrong: long-range dependency is not an intrinsic property of multiplication, but a mirage produced by the choice of computational spacetime. We formalize the notion of mirage and provide a constructive proof: when two n-bit binary integers are laid out as a 2D outer-product grid, every step of long multiplication collapses into a $3 \times 3$ local neighborhood operation. Under this representation, a neural cellular automaton with only 321 learnable parameters achieves perfect length generalization up to $683\times$ the training range. Five alternative architectures -- including Transformer (6,625 params), Transformer+RoPE, and Mamba -- all fail under the same representation. We further analyze how partial successes locked the community into an incorrect diagnosis, and argue that any task diagnosed as requiring long-range dependency should first be examined for whether the dependency is intrinsic to the task or induced by the computational spacetime.
- Abstract(参考訳): 整数乗法は長年、ニューラルネットワークにとって難しい問題と考えられてきたが、その難しさはキャリーチェインによって誘導されるO(n)長距離依存性に広く起因している。
長距離依存は乗法の本質的な性質ではなく、計算時空の選択によって生成されるミラージュである。
2つの n-ビット二進整数が2次元外積格子としてレイアウトされると、長い乗算のすべてのステップが3ドル3セントの局所近傍演算に崩壊する。
この表現の下では、321個の学習可能なパラメータしか持たない神経セルオートマトンが、トレーニング範囲に対して683\timesまでの完全な長さの一般化を達成する。
Transformer (6,625params)、Transformer+RoPE、Mambaを含む5つの代替アーキテクチャは、すべて同じ表現で失敗する。
さらに, 部分的な成功により, コミュニティが不正確な診断を下し, 長期依存と診断されたタスクは, そのタスクに固有のものなのか, あるいは計算時空によって引き起こされるものなのかを, まず調べるべきである,と論じる。
関連論文リスト
- Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - Stuffed Mamba: Oversized States Lead to the Inability to Forget [53.512358993801115]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。
モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。
我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文 参考訳(メタデータ) (2024-10-09T17:54:28Z) - Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - SE(3)-Hyena Operator for Scalable Equivariant Learning [5.354533854744212]
ヒエナ作用素に基づく同変長畳み込みモデルであるSE(3)-ヒエナを導入する。
我々のモデルは20kトークンの幾何学的文脈を同変変圧器のx3.5倍高速に処理する。
論文 参考訳(メタデータ) (2024-07-01T07:56:48Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Multi-Modal and Multi-Factor Branching Time Active Inference [2.513785998932353]
モンテカルロ木探索に基づく分枝時間アクティブ推論(BTAI)の2つのバージョンが開発されている。
しかし、BTAIのこれらの2つのバージョンはいまだ指数複雑性クラスに悩まされており、観測変数と潜伏変数の数がモデル化されている。
本稿では、この制限をいくつかの観測をモデル化することで解決する。
推論アルゴリズムは、後部の計算を高速化するために、可能性と遷移写像の分解を利用する。
論文 参考訳(メタデータ) (2022-06-24T22:07:21Z) - Triformer: Triangular, Variable-Specific Attentions for Long Sequence
Multivariate Time Series Forecasting--Full Version [50.43914511877446]
本稿では,高い効率と精度を確保するために,三角形,可変特性に着目した注意点を提案する。
我々はTriformerが精度と効率の両方で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-04-28T20:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。