論文の概要: The Effect of Depth on the Expressivity of Deep Linear State-Space Models
- arxiv url: http://arxiv.org/abs/2506.19296v1
- Date: Tue, 24 Jun 2025 04:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.482875
- Title: The Effect of Depth on the Expressivity of Deep Linear State-Space Models
- Title(参考訳): 深部線形状態空間モデルの表現性に及ぼす深さの影響
- Authors: Zeyu Bao, Penghao Yu, Haotian Jiang, Qianxiao Li,
- Abstract要約: ディープステートスペースモデル(SSM)はシーケンスモデリングにおいて人気が高まっている。
深部線形SSMにおける深さと幅の役割について検討し,それらがアーキテクチャの表現能力にどのように影響するかを特徴付けることを目的とした。
パラメータノルムが大きい浅い線形SSMは、構成的手法を用いてより小さなノルムを持つ深い線形SSMで表現できることを示す。
- 参考スコア(独自算出の注目度): 14.79659491236138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep state-space models (SSMs) have gained increasing popularity in sequence modelling. While there are numerous theoretical investigations of shallow SSMs, how the depth of the SSM affects its expressiveness remains a crucial problem. In this paper, we systematically investigate the role of depth and width in deep linear SSMs, aiming to characterize how they influence the expressive capacity of the architecture. First, we rigorously prove that in the absence of parameter constraints, increasing depth and increasing width are generally equivalent, provided that the parameter count remains within the same order of magnitude. However, under the assumption that the parameter norms are constrained, the effects of depth and width differ significantly. We show that a shallow linear SSM with large parameter norms can be represented by a deep linear SSM with smaller norms using a constructive method. In particular, this demonstrates that deep SSMs are more capable of representing targets with large norms than shallow SSMs under norm constraints. Finally, we derive upper bounds on the minimal depth required for a deep linear SSM to represent a given shallow linear SSM under constrained parameter norms. We also validate our theoretical results with numerical experiments
- Abstract(参考訳): ディープステートスペースモデル(SSM)は、シーケンスモデリングにおいて人気が高まっている。
浅いSSMに関する多くの理論的研究があるが、SSMの深さがその表現性にどのように影響するかは重要な問題である。
本稿では,深部線形SSMにおける深さと幅の役割を体系的に検討し,それらがアーキテクチャの表現能力にどのように影響するかを特徴付けることを目的とする。
まず,パラメータの制限がない場合,パラメータ数が同じ桁に留まる場合,深さの増大と幅の増大は概ね等価であることを示す。
しかし、パラメータノルムが制約されているという仮定の下では、深さと幅の影響は著しく異なる。
パラメータノルムが大きい浅い線形SSMは、構成的手法を用いてより小さなノルムを持つ深い線形SSMで表現できることを示す。
特に、このことは、深いSSMは、基準制約の下で浅いSSMよりも大きな基準でターゲットを表現することができることを示している。
最後に、制約パラメータノルムの下で与えられた浅い線形SSMを表現するために、深い線形SSMに必要な最小の深さの上限を導出する。
数値実験による理論結果の検証も行う。
関連論文リスト
- Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。
我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-17T23:15:17Z) - Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。
我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。
各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文 参考訳(メタデータ) (2025-02-18T15:09:58Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Parameter-Efficient Fine-Tuning of State Space Models [10.817729275974829]
Deep State Space Models (SSM) は、言語モデリングの強力なツールとなり、シーケンス長で高いパフォーマンスと線形スケーラビリティを提供する。
本稿では,パラメータ効率のよい微調整法(PEFT)のSSMモデルへの適用について検討する。
SSMモジュールに適したPEFT法であるスパース次元チューニング(SDT)を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:30:28Z) - Towards a theory of learning dynamics in deep state space models [12.262490032020832]
状態空間モデル(SSM)は多くの長いシーケンスモデリングタスクにおいて顕著な経験的性能を示した。
この研究は、ディープステート空間モデルにおける動的学習の理論への一歩である。
論文 参考訳(メタデータ) (2024-07-10T00:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。