論文の概要: An explicit operator explains end-to-end computation in the modern neural networks used for sequence and language modeling
- arxiv url: http://arxiv.org/abs/2604.20595v1
- Date: Wed, 22 Apr 2026 14:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.16501
- Title: An explicit operator explains end-to-end computation in the modern neural networks used for sequence and language modeling
- Title(参考訳): 明示的演算子は、シーケンスと言語モデリングに使用される現代のニューラルネットワークにおけるエンドツーエンドの計算を説明する
- Authors: Anif N. Shikder, Ramit Dey, Sayantan Auddy, Luisa Liboni, Alexandra N. Busch, Arthur Powanwe, Ján Mináč, Roberto C. Budzinski, Lyle E. Muller,
- Abstract要約: 我々は、構造化状態空間系列モデルの対角線時間不変実装を分析する(S4)。
我々は、S4Dの全前方通過に対する正確な演算子式を導出し、その完全な入出力マップの解析的特徴を与える。
これらの結果は、現代のSSMアーキテクチャ全体にわたって一般化され、明確な物理的解釈を持つ正確な数学的記述が認められることを示す。
- 参考スコア(独自算出の注目度): 31.458406135473805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We establish a mathematical correspondence between state space models, a state-of-the-art architecture for capturing long-range dependencies in data, and an exactly solvable nonlinear oscillator network. As a specific example of this general correspondence, we analyze the diagonal linear time-invariant implementation of the Structured State Space Sequence model (S4). The correspondence embeds S4D, a specific implementation of S4, into a ring network topology, in which recent inputs are encoded, as waves of activity traveling over the one-dimensional spatial layout of the network. We then derive an exact operator expression for the full forward pass of S4D, yielding an analytical characterization of its complete input-output map. This expression reveals that the nonlinear decoder in the system induces interactions between these information-carrying waves that enable classifying real-world sequences. These results generalize across modern SSM architectures, and show that they admit an exact mathematical description with a clear physical interpretation. These insights enable a new level of interpretability for these systems in terms of nonlinear oscillator networks.
- Abstract(参考訳): 我々は、状態空間モデルと、データ内の長距離依存を捉える最先端アーキテクチャと、正確に解ける非線形発振回路ネットワークの数学的対応を確立する。
この一般的な対応の具体例として、構造化状態空間系列モデル(S4)の対角線時間不変実装を解析する。
この対応は、S4の特定の実装であるS4Dをリングネットワークトポロジーに埋め込み、最近の入力を符号化し、ネットワークの一次元空間配置を移動する活動の波として行う。
次に、S4Dのフルフォワードパスに対する正確な演算子式を導出し、その完全な入出力マップの解析的特徴を与える。
この式は、システム内の非線形デコーダがこれらの情報伝達波間の相互作用を誘導し、現実世界のシーケンスを分類できることを示している。
これらの結果は、現代のSSMアーキテクチャ全体にわたって一般化され、明確な物理的解釈を持つ正確な数学的記述が認められることを示す。
これらの知見は、非線形発振器ネットワークの観点から、これらのシステムに対する新しいレベルの解釈可能性を実現する。
関連論文リスト
- Separable neural architectures as a primitive for unified predictive and generative intelligence [0.7318787399845128]
我々は、加法モデル、二次モデル、テンソル分解モデルを統合する表現クラスを定式化する。
SNAは、高次元の高分解成分への写像を分解する構造的帰納バイアスを課す。
これらの結果は、予測および生成知能のドメインに依存しないプリミティブとして分離可能なニューラルアーキテクチャを確立する。
論文 参考訳(メタデータ) (2026-03-12T17:56:54Z) - Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。
我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。
この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文 参考訳(メタデータ) (2026-01-01T18:11:38Z) - On the relationship between Koopman operator approximations and neural ordinary differential equations for data-driven time-evolution predictions [0.0]
辞書学習(EDMD-DL)による拡張動的モード分解は、状態空間上の非線形離散時間フローマップのニューラルネットワーク表現と等価であることを示す。
ロレンツ系におけるカオス力学の数値実験と乱流せん断流れの9モードモデルを用いてこれらの手法を評価する。
論文 参考訳(メタデータ) (2024-11-20T00:18:46Z) - Designing Universal Causal Deep Learning Models: The Case of Infinite-Dimensional Dynamical Systems from Stochastic Analysis [7.373617024876726]
解析におけるいくつかの非線形作用素は、現代のニューラル作用素によって利用されていない時間構造に依存している。
本稿では,無限次元線形距離空間を適切に扱うディープラーニングモデル設計フレームワークを提案する。
我々のフレームワークはコンパクトな集合や任意の有限時間地平線 H" や滑らかなトレースクラス作用素に対して均一に近似できることを示す。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Lipschitz Recurrent Neural Networks [100.72827570987992]
我々のリプシッツ再帰ユニットは、他の連続時間RNNと比較して、入力やパラメータの摂動に対してより堅牢であることを示す。
実験により,Lipschitz RNNは,ベンチマークタスクにおいて,既存のリカレントユニットよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-06-22T08:44:52Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Neural Operator: Graph Kernel Network for Partial Differential Equations [57.90284928158383]
この作業はニューラルネットワークを一般化し、無限次元空間(演算子)間の写像を学習できるようにすることである。
非線形活性化関数と積分作用素のクラスを構成することにより、無限次元写像の近似を定式化する。
実験により,提案したグラフカーネルネットワークには所望の特性があり,最先端技術と比較した場合の競合性能を示すことが確認された。
論文 参考訳(メタデータ) (2020-03-07T01:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。