論文の概要: Design Principles for Sequence Models via Coefficient Dynamics
- arxiv url: http://arxiv.org/abs/2510.09389v1
- Date: Fri, 10 Oct 2025 13:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.189639
- Title: Design Principles for Sequence Models via Coefficient Dynamics
- Title(参考訳): 係数ダイナミクスによるシーケンスモデルの設計原理
- Authors: Jerome Sieber, Antonio Orvieto, Melanie N. Zeilinger, Carmen Amo Alonso,
- Abstract要約: インパルス入力によって駆動される自律線形力学系の出力として線形結合係数をキャストすることにより、この出力演算を明示する統一的なフレームワークを開発する。
この視点は、線形RNNと線形注意を結びつけることに焦点を当てたアプローチとは大きく異なり、多様なアーキテクチャにまたがる共通の数学的テーマを明らかにしている。
これにより、表現性と効率的な実装のトレードオフ、入力選択性に関する幾何学的制約、数値的に安定したトレーニングと情報保持のための安定性条件を識別できる。
- 参考スコア(独自算出の注目度): 20.14360019974826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep sequence models, ranging from Transformers and State Space Models (SSMs) to more recent approaches such as gated linear RNNs, fundamentally compute outputs as linear combinations of past value vectors. To draw insights and systematically compare such architectures, we develop a unified framework that makes this output operation explicit, by casting the linear combination coefficients as the outputs of autonomous linear dynamical systems driven by impulse inputs. This viewpoint, in spirit substantially different from approaches focusing on connecting linear RNNs with linear attention, reveals a common mathematical theme across diverse architectures and crucially captures softmax attention, on top of RNNs, SSMs, and related models. In contrast to new model proposals that are commonly evaluated on benchmarks, we derive design principles linking architectural choices to model properties. Thereby identifying tradeoffs between expressivity and efficient implementation, geometric constraints on input selectivity, and stability conditions for numerically stable training and information retention. By connecting several insights and observations from recent literature, the framework both explains empirical successes of recent designs and provides guiding principles for systematically designing new sequence model architectures.
- Abstract(参考訳): 変換器と状態空間モデル(SSM)から、ゲート線形RNNのようなより最近のアプローチまで、ディープシーケンスモデルは、過去の値ベクトルの線形結合として出力を根本的に計算する。
インパルス入力によって駆動される自律線形力学系の出力として線形結合係数をキャストすることにより、洞察を導き、これらのアーキテクチャを体系的に比較する。
この視点は、線形RNNと線形アテンションを結びつけることに焦点を当てたアプローチとは大きく異なり、様々なアーキテクチャにまたがる共通の数学的テーマを明らかにし、RNN、SSM、および関連するモデル上でソフトマックスアテンションを決定的に捉えている。
ベンチマークで一般的に評価される新しいモデル提案とは対照的に、アーキテクチャの選択とモデルプロパティを結びつける設計原則を導出します。
これにより、表現性と効率的な実装のトレードオフ、入力選択性に関する幾何学的制約、数値的に安定したトレーニングと情報保持のための安定性条件を識別できる。
このフレームワークは、最近の文献からいくつかの洞察と観察を結びつけることで、どちらも最近の設計の実証的な成功を説明し、新しいシーケンスモデルアーキテクチャを体系的に設計するための指針を提供する。
関連論文リスト
- PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - Lag Operator SSMs: A Geometric Framework for Structured State Space Modeling [3.3864018929063477]
柔軟かつモジュール化された離散時間構造化状態空間モデル(SSM)を構築するためのフレームワークを導入する。
提案手法は,システムの基本機能「すべり」を測定することにより,離散時間再発を幾何学的に導出する新しいラグ演算子に基づく。
論文 参考訳(メタデータ) (2025-12-22T02:25:26Z) - Task-Level Insights from Eigenvalues across Sequence Models [41.79939327722031]
固有値がメモリと長距離依存性モデリングの本質的側面に影響を与えることを示す。
次に,シーケンスモデルのアーキテクチャ変更が固有値スペクトルとタスク性能の両方に与える影響について検討する。
この対応は、列モデルの能力を解釈し、理解し、最終的に改善するための原則的計量としての固有値解析の位置をさらに強化する。
論文 参考訳(メタデータ) (2025-10-10T13:35:21Z) - Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。
特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。
本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文 参考訳(メタデータ) (2025-06-16T06:54:08Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - Efficient identification of linear, parameter-varying, and nonlinear systems with noise models [1.6385815610837167]
本稿では、状態空間の力学モデルの幅広いスペクトルを推定できる一般的なシステム同定手法を提案する。
この一般的なモデル構造に対して、モデル力学は決定論的過程とノイズ部分に分離できることを示す。
人工ニューラルネットワーク(ANN)を用いた非線形機能関係のパラメータ化
論文 参考訳(メタデータ) (2025-04-16T11:23:30Z) - Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Neural Port-Hamiltonian Differential Algebraic Equations for Compositional Learning of Electrical Networks [21.117540483724603]
結合力学系のための合成学習アルゴリズムを開発し,特に電気ネットワークに着目した。
我々は、ニューラルネットワークを用いて、ポート-ハミルトンDAEの微分および代数的成分のパラメータ化を行うニューラルポート-ハミルトン微分代数方程式(N-PHDAEs)を導入する。
提案したN-PHDAEモデルは,長期予測時地平線上でのベースラインN-ODEと比較して,予測精度と制約満足度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-12-15T15:13:11Z) - Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods [8.654571696634825]
State Space Models (SSM) と Koopman に基づくディープラーニング手法は、線形および非線形の剛弦の力学をモデル化する。
以上の結果から,提案したクープマンモデルが,長周期モデリングにおける非線形ケースにおいて,他の既存手法と同等以上の性能を示すことが示唆された。
本研究は、これらの手法と過去の手法の比較概要を提供し、モデル改善のための革新的な戦略を導入することにより、力学系の物理モデリングに関する洞察を貢献する。
論文 参考訳(メタデータ) (2024-08-29T15:55:27Z) - Learnable & Interpretable Model Combination in Dynamical Systems Modeling [0.0]
この研究は、動的システムモデリングにおいて、どのタイプのモデルが通常結合されるかを簡単に議論する。
本稿では,混合代数的,離散的,微分方程式に基づくモデルを表現可能なモデルのクラスを提案する。
最後に,モデルの任意の組み合わせを,容易に解釈可能な方法で記述できる新しいワイルドカードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:17:11Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。