論文の概要: Why Depth Matters in Parallelizable Sequence Models: A Lie Algebraic View
- arxiv url: http://arxiv.org/abs/2603.05573v1
- Date: Thu, 05 Mar 2026 16:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.281643
- Title: Why Depth Matters in Parallelizable Sequence Models: A Lie Algebraic View
- Title(参考訳): 並列化可能なシーケンスモデルにおける深さが重要な理由:リー代数的視点
- Authors: Gyuryang Heo, Timothy Ngotiaoco, Kazuki Irie, Samuel J. Gershman, Bernardo Sabatini,
- Abstract要約: モデルが表現性体制外で動作する場合, 誤差の限界と誤差のスケールについて検討する。
我々の理論は、列モデルの深さとリー代数拡大の塔の間の対応を定式化している。
我々は近似誤差境界を解析的に導出し、深さが大きくなるにつれて誤差が指数関数的に減少することを示す。
- 参考スコア(独自算出の注目度): 15.326860959311622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalable sequence models, such as Transformer variants and structured state-space models, often trade expressivity power for sequence-level parallelism, which enables efficient training. Here we examine the bounds on error and how error scales when models operate outside of their expressivity regimes using a Lie-algebraic control perspective. Our theory formulates a correspondence between the depth of a sequence model and the tower of Lie algebra extensions. Echoing recent theoretical studies, we characterize the Lie-algebraic class of constant-depth sequence models and their corresponding expressivity bounds. Furthermore, we analytically derive an approximation error bound and show that error diminishes exponentially as the depth increases, consistent with the strong empirical performance of these models. We validate our theoretical predictions using experiments on symbolic word and continuous-valued state-tracking problems.
- Abstract(参考訳): トランスフォーマー変種や構造化状態空間モデルのようなスケーラブルなシーケンスモデルは、しばしばシーケンスレベルの並列性のための表現力と交換し、効率的なトレーニングを可能にする。
ここでは,Lie-algebraic 制御の観点から,モデルが表現規則外で動作する場合の誤差の限界と誤差のスケールについて検討する。
我々の理論は、列モデルの深さとリー代数拡大の塔の間の対応を定式化している。
最近の理論的研究を反映して、定数深度列モデルのリー代数クラスとその表現性境界を特徴づける。
さらに,近似誤差境界を解析的に導出し,深度が大きくなるにつれて誤差が指数関数的に減少することを示す。
我々は,記号的単語と連続的な状態追跡問題を用いた理論的予測を検証した。
関連論文リスト
- Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文 参考訳(メタデータ) (2025-05-27T16:24:20Z) - Can Diffusion Models Disentangle? A Theoretical Perspective [37.21661224725838]
本稿では,拡散モデルが非交叉表現を学習する方法を理解するための新しい理論的枠組みを提案する。
我々は、一般的な非絡み付き潜在変数モデルの識別可能性条件を確立し、トレーニング力学を解析し、非絡み付き潜在部分空間モデルのサンプル複雑性境界を導出する。
論文 参考訳(メタデータ) (2025-03-31T20:46:18Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - State-space Models with Layer-wise Nonlinearity are Universal
Approximators with Exponential Decaying Memory [0.0]
階層的非線形アクティベーションを伴う状態空間モデルの重ね合わせは,連続的なシーケンスとシーケンスの関係を近似するのに十分であることを示す。
以上の結果から,階層的に非線形なアクティベーションが加わったことにより,複雑なシーケンスパターンの学習能力が向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-23T15:55:12Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Boundary theories of critical matchgate tensor networks [59.433172590351234]
AdS/CFT対応の重要な側面は、双曲格子上のテンソルネットワークモデルの観点から捉えることができる。
マッチゲート制約を満たすテンソルに対しては、これらは以前、乱れた境界状態を生成することが示されている。
これらのハミルトニアンは、解析的な玩具モデルによって捉えられたマルチスケールの準周期対称性を示す。
論文 参考訳(メタデータ) (2021-10-06T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。