論文の概要: Task-Level Insights from Eigenvalues across Sequence Models
- arxiv url: http://arxiv.org/abs/2510.09379v1
- Date: Fri, 10 Oct 2025 13:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.944024
- Title: Task-Level Insights from Eigenvalues across Sequence Models
- Title(参考訳): シーケンスモデルにおける固有値からのタスクレベルインサイト
- Authors: Rahel Rickenbach, Jelena Trisovic, Alexandre Didier, Jerome Sieber, Melanie N. Zeilinger,
- Abstract要約: 固有値がメモリと長距離依存性モデリングの本質的側面に影響を与えることを示す。
次に,シーケンスモデルのアーキテクチャ変更が固有値スペクトルとタスク性能の両方に与える影響について検討する。
この対応は、列モデルの能力を解釈し、理解し、最終的に改善するための原則的計量としての固有値解析の位置をさらに強化する。
- 参考スコア(独自算出の注目度): 41.79939327722031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although softmax attention drives state-of-the-art performance for sequence models, its quadratic complexity limits scalability, motivating linear alternatives such as state space models (SSMs). While these alternatives improve efficiency, their fundamental differences in information processing remain poorly understood. In this work, we leverage the recently proposed dynamical systems framework to represent softmax, norm and linear attention as dynamical systems, enabling a structured comparison with SSMs by analyzing their respective eigenvalue spectra. Since eigenvalues capture essential aspects of dynamical system behavior, we conduct an extensive empirical analysis across diverse sequence models and benchmarks. We first show that eigenvalues influence essential aspects of memory and long-range dependency modeling, revealing spectral signatures that align with task requirements. Building on these insights, we then investigate how architectural modifications in sequence models impact both eigenvalue spectra and task performance. This correspondence further strengthens the position of eigenvalue analysis as a principled metric for interpreting, understanding, and ultimately improving the capabilities of sequence models.
- Abstract(参考訳): ソフトマックス・アテンションはシーケンスモデルの最先端性能を駆動するが、その2次複雑性はスケーラビリティを制限し、状態空間モデル(SSM)のような線形代替品を動機付けている。
これらの代替手段は効率を向上するが、情報処理の基本的な違いはよく分かっていない。
本研究では,最近提案された動的システムフレームワークを利用して,ソフトマックス,ノルム,リニアアテンションを動的システムとして表現し,それぞれの固有値スペクトルを分析してSSMと構造化された比較を可能にする。
固有値は力学系の振る舞いの本質的な側面を捉えるので、様々なシーケンスモデルやベンチマークにまたがる広範な経験的分析を行う。
まず、固有値がメモリと長距離依存性モデリングの本質的側面に影響を与え、タスク要求に合致するスペクトルシグネチャを明らかにする。
これらの知見に基づいて、シーケンスモデルのアーキテクチャ変更が固有値スペクトルとタスク性能の両方にどのように影響するかを検討する。
この対応は、列モデルの能力を解釈し、理解し、最終的に改善するための原則的計量としての固有値解析の位置をさらに強化する。
関連論文リスト
- Latent Matters: Learning Deep State-Space Models [6.489119428188]
深部状態空間モデル(DSSM)は、観測されたシーケンスデータの基盤となるダイナミクスを学習することで、時間的予測を可能にする。
DSSMのトレーニングのための一般的なアプローチとして,制約付き最適化フレームワークを提案する。
RNNベースのDSSMよりも高精度に力学をモデル化するために、補正された変分推論と古典的ベイズフィルタリング/平滑化を組み合わせた拡張Kalman VAE(EKVAE)を導入する。
論文 参考訳(メタデータ) (2026-02-26T14:35:45Z) - A Mechanistic Analysis of Transformers for Dynamical Systems [4.590170084532207]
動的データに適用した場合の単一層変換器の表現能力と限界について検討する。
線形系に対しては、ソフトマックスアテンションによって課される凸性制約が、表現できる力学のクラスを根本的に制限していることが示される。
部分可観測性を持つ非線形系では、注意は適応的な遅延埋め込み機構として機能する。
論文 参考訳(メタデータ) (2025-12-24T11:21:07Z) - An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - Design Principles for Sequence Models via Coefficient Dynamics [20.14360019974826]
インパルス入力によって駆動される自律線形力学系の出力として線形結合係数をキャストすることにより、この出力演算を明示する統一的なフレームワークを開発する。
この視点は、線形RNNと線形注意を結びつけることに焦点を当てたアプローチとは大きく異なり、多様なアーキテクチャにまたがる共通の数学的テーマを明らかにしている。
これにより、表現性と効率的な実装のトレードオフ、入力選択性に関する幾何学的制約、数値的に安定したトレーニングと情報保持のための安定性条件を識別できる。
論文 参考訳(メタデータ) (2025-10-10T13:42:31Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Numerical Investigation of Sequence Modeling Theory using Controllable Memory Functions [14.79659491236138]
本稿では,異なる時系列モデルが時間構造を効果的に捉える方法を評価するための,合成ベンチマークフレームワークを提案する。
このアプローチのコアは、それぞれがメモリ機能と時間依存の強さを決定するパラメータによって特徴づけられる合成ターゲットを生成することである。
いくつかのシーケンスモデリングアーキテクチャの実験は、既存の理論的洞察を確認し、新しい発見を明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:02:59Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods [8.654571696634825]
State Space Models (SSM) と Koopman に基づくディープラーニング手法は、線形および非線形の剛弦の力学をモデル化する。
以上の結果から,提案したクープマンモデルが,長周期モデリングにおける非線形ケースにおいて,他の既存手法と同等以上の性能を示すことが示唆された。
本研究は、これらの手法と過去の手法の比較概要を提供し、モデル改善のための革新的な戦略を導入することにより、力学系の物理モデリングに関する洞察を貢献する。
論文 参考訳(メタデータ) (2024-08-29T15:55:27Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。