論文の概要: Design Principles for Sequence Models via Coefficient Dynamics
- arxiv url: http://arxiv.org/abs/2510.09389v1
- Date: Fri, 10 Oct 2025 13:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.189639
- Title: Design Principles for Sequence Models via Coefficient Dynamics
- Title(参考訳): 係数ダイナミクスによるシーケンスモデルの設計原理
- Authors: Jerome Sieber, Antonio Orvieto, Melanie N. Zeilinger, Carmen Amo Alonso,
- Abstract要約: インパルス入力によって駆動される自律線形力学系の出力として線形結合係数をキャストすることにより、この出力演算を明示する統一的なフレームワークを開発する。
この視点は、線形RNNと線形注意を結びつけることに焦点を当てたアプローチとは大きく異なり、多様なアーキテクチャにまたがる共通の数学的テーマを明らかにしている。
これにより、表現性と効率的な実装のトレードオフ、入力選択性に関する幾何学的制約、数値的に安定したトレーニングと情報保持のための安定性条件を識別できる。
- 参考スコア(独自算出の注目度): 20.14360019974826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep sequence models, ranging from Transformers and State Space Models (SSMs) to more recent approaches such as gated linear RNNs, fundamentally compute outputs as linear combinations of past value vectors. To draw insights and systematically compare such architectures, we develop a unified framework that makes this output operation explicit, by casting the linear combination coefficients as the outputs of autonomous linear dynamical systems driven by impulse inputs. This viewpoint, in spirit substantially different from approaches focusing on connecting linear RNNs with linear attention, reveals a common mathematical theme across diverse architectures and crucially captures softmax attention, on top of RNNs, SSMs, and related models. In contrast to new model proposals that are commonly evaluated on benchmarks, we derive design principles linking architectural choices to model properties. Thereby identifying tradeoffs between expressivity and efficient implementation, geometric constraints on input selectivity, and stability conditions for numerically stable training and information retention. By connecting several insights and observations from recent literature, the framework both explains empirical successes of recent designs and provides guiding principles for systematically designing new sequence model architectures.
- Abstract(参考訳): 変換器と状態空間モデル(SSM)から、ゲート線形RNNのようなより最近のアプローチまで、ディープシーケンスモデルは、過去の値ベクトルの線形結合として出力を根本的に計算する。
インパルス入力によって駆動される自律線形力学系の出力として線形結合係数をキャストすることにより、洞察を導き、これらのアーキテクチャを体系的に比較する。
この視点は、線形RNNと線形アテンションを結びつけることに焦点を当てたアプローチとは大きく異なり、様々なアーキテクチャにまたがる共通の数学的テーマを明らかにし、RNN、SSM、および関連するモデル上でソフトマックスアテンションを決定的に捉えている。
ベンチマークで一般的に評価される新しいモデル提案とは対照的に、アーキテクチャの選択とモデルプロパティを結びつける設計原則を導出します。
これにより、表現性と効率的な実装のトレードオフ、入力選択性に関する幾何学的制約、数値的に安定したトレーニングと情報保持のための安定性条件を識別できる。
このフレームワークは、最近の文献からいくつかの洞察と観察を結びつけることで、どちらも最近の設計の実証的な成功を説明し、新しいシーケンスモデルアーキテクチャを体系的に設計するための指針を提供する。
関連論文リスト
- Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - Efficient identification of linear, parameter-varying, and nonlinear systems with noise models [1.6385815610837167]
本稿では、状態空間の力学モデルの幅広いスペクトルを推定できる一般的なシステム同定手法を提案する。
この一般的なモデル構造に対して、モデル力学は決定論的過程とノイズ部分に分離できることを示す。
人工ニューラルネットワーク(ANN)を用いた非線形機能関係のパラメータ化
論文 参考訳(メタデータ) (2025-04-16T11:23:30Z) - Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Neural Port-Hamiltonian Differential Algebraic Equations for Compositional Learning of Electrical Networks [21.117540483724603]
結合力学系のための合成学習アルゴリズムを開発し,特に電気ネットワークに着目した。
我々は、ニューラルネットワークを用いて、ポート-ハミルトンDAEの微分および代数的成分のパラメータ化を行うニューラルポート-ハミルトン微分代数方程式(N-PHDAEs)を導入する。
提案したN-PHDAEモデルは,長期予測時地平線上でのベースラインN-ODEと比較して,予測精度と制約満足度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-12-15T15:13:11Z) - Learnable & Interpretable Model Combination in Dynamical Systems Modeling [0.0]
この研究は、動的システムモデリングにおいて、どのタイプのモデルが通常結合されるかを簡単に議論する。
本稿では,混合代数的,離散的,微分方程式に基づくモデルを表現可能なモデルのクラスを提案する。
最後に,モデルの任意の組み合わせを,容易に解釈可能な方法で記述できる新しいワイルドカードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:17:11Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。