論文の概要: Task-Level Insights from Eigenvalues across Sequence Models
- arxiv url: http://arxiv.org/abs/2510.09379v1
- Date: Fri, 10 Oct 2025 13:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.944024
- Title: Task-Level Insights from Eigenvalues across Sequence Models
- Title(参考訳): シーケンスモデルにおける固有値からのタスクレベルインサイト
- Authors: Rahel Rickenbach, Jelena Trisovic, Alexandre Didier, Jerome Sieber, Melanie N. Zeilinger,
- Abstract要約: 固有値がメモリと長距離依存性モデリングの本質的側面に影響を与えることを示す。
次に,シーケンスモデルのアーキテクチャ変更が固有値スペクトルとタスク性能の両方に与える影響について検討する。
この対応は、列モデルの能力を解釈し、理解し、最終的に改善するための原則的計量としての固有値解析の位置をさらに強化する。
- 参考スコア(独自算出の注目度): 41.79939327722031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although softmax attention drives state-of-the-art performance for sequence models, its quadratic complexity limits scalability, motivating linear alternatives such as state space models (SSMs). While these alternatives improve efficiency, their fundamental differences in information processing remain poorly understood. In this work, we leverage the recently proposed dynamical systems framework to represent softmax, norm and linear attention as dynamical systems, enabling a structured comparison with SSMs by analyzing their respective eigenvalue spectra. Since eigenvalues capture essential aspects of dynamical system behavior, we conduct an extensive empirical analysis across diverse sequence models and benchmarks. We first show that eigenvalues influence essential aspects of memory and long-range dependency modeling, revealing spectral signatures that align with task requirements. Building on these insights, we then investigate how architectural modifications in sequence models impact both eigenvalue spectra and task performance. This correspondence further strengthens the position of eigenvalue analysis as a principled metric for interpreting, understanding, and ultimately improving the capabilities of sequence models.
- Abstract(参考訳): ソフトマックス・アテンションはシーケンスモデルの最先端性能を駆動するが、その2次複雑性はスケーラビリティを制限し、状態空間モデル(SSM)のような線形代替品を動機付けている。
これらの代替手段は効率を向上するが、情報処理の基本的な違いはよく分かっていない。
本研究では,最近提案された動的システムフレームワークを利用して,ソフトマックス,ノルム,リニアアテンションを動的システムとして表現し,それぞれの固有値スペクトルを分析してSSMと構造化された比較を可能にする。
固有値は力学系の振る舞いの本質的な側面を捉えるので、様々なシーケンスモデルやベンチマークにまたがる広範な経験的分析を行う。
まず、固有値がメモリと長距離依存性モデリングの本質的側面に影響を与え、タスク要求に合致するスペクトルシグネチャを明らかにする。
これらの知見に基づいて、シーケンスモデルのアーキテクチャ変更が固有値スペクトルとタスク性能の両方にどのように影響するかを検討する。
この対応は、列モデルの能力を解釈し、理解し、最終的に改善するための原則的計量としての固有値解析の位置をさらに強化する。
関連論文リスト
- Design Principles for Sequence Models via Coefficient Dynamics [20.14360019974826]
インパルス入力によって駆動される自律線形力学系の出力として線形結合係数をキャストすることにより、この出力演算を明示する統一的なフレームワークを開発する。
この視点は、線形RNNと線形注意を結びつけることに焦点を当てたアプローチとは大きく異なり、多様なアーキテクチャにまたがる共通の数学的テーマを明らかにしている。
これにより、表現性と効率的な実装のトレードオフ、入力選択性に関する幾何学的制約、数値的に安定したトレーニングと情報保持のための安定性条件を識別できる。
論文 参考訳(メタデータ) (2025-10-10T13:42:31Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Numerical Investigation of Sequence Modeling Theory using Controllable Memory Functions [14.79659491236138]
本稿では,異なる時系列モデルが時間構造を効果的に捉える方法を評価するための,合成ベンチマークフレームワークを提案する。
このアプローチのコアは、それぞれがメモリ機能と時間依存の強さを決定するパラメータによって特徴づけられる合成ターゲットを生成することである。
いくつかのシーケンスモデリングアーキテクチャの実験は、既存の理論的洞察を確認し、新しい発見を明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:02:59Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods [8.654571696634825]
State Space Models (SSM) と Koopman に基づくディープラーニング手法は、線形および非線形の剛弦の力学をモデル化する。
以上の結果から,提案したクープマンモデルが,長周期モデリングにおける非線形ケースにおいて,他の既存手法と同等以上の性能を示すことが示唆された。
本研究は、これらの手法と過去の手法の比較概要を提供し、モデル改善のための革新的な戦略を導入することにより、力学系の物理モデリングに関する洞察を貢献する。
論文 参考訳(メタデータ) (2024-08-29T15:55:27Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。