論文の概要: The Curious Case of In-Training Compression of State Space Models
- arxiv url: http://arxiv.org/abs/2510.02823v1
- Date: Fri, 03 Oct 2025 09:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.324399
- Title: The Curious Case of In-Training Compression of State Space Models
- Title(参考訳): 国家空間モデルにおけるイントレーニング圧縮の事例
- Authors: Makram Chahine, Philipp Nazari, Daniela Rus, T. Konstantin Rusch,
- Abstract要約: ステートスペースモデル(SSM)は並列化可能なトレーニングと高速推論の両方を提供する。
重要な設計課題は、表現力の最大化とこの計算負担の制限の間の適切なバランスを打つことである。
トレーニング中の削減は,表現性を保ちながら最適化を著しく加速することを示す。
- 参考スコア(独自算出の注目度): 49.819321766705514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Models (SSMs), developed to tackle long sequence modeling tasks efficiently, offer both parallelizable training and fast inference. At their core are recurrent dynamical systems that maintain a hidden state, with update costs scaling with the state dimension. A key design challenge is striking the right balance between maximizing expressivity and limiting this computational burden. Control theory, and more specifically Hankel singular value analysis, provides a potent framework for the measure of energy for each state, as well as the balanced truncation of the original system down to a smaller representation with performance guarantees. Leveraging the eigenvalue stability properties of Hankel matrices, we apply this lens to SSMs during training, where only dimensions of high influence are identified and preserved. Our approach applies to Linear Time-Invariant SSMs such as Linear Recurrent Units, but is also extendable to selective models. Experiments show that in-training reduction significantly accelerates optimization while preserving expressivity, with compressed models retaining task-critical structure lost by models trained directly at smaller dimension. In other words, SSMs that begin large and shrink during training achieve computational efficiency while maintaining higher performance.
- Abstract(参考訳): State Space Models (SSM)は、長いシーケンスモデリングタスクを効率的に扱うために開発され、並列化可能なトレーニングと高速推論の両方を提供する。
コアとなるのは,隠れた状態を維持するリカレントな動的システムだ。
重要な設計課題は、表現力の最大化とこの計算負担の制限の間の適切なバランスを打つことである。
制御理論、特にハンケル特異値解析は、各状態に対するエネルギーの測定のための強力な枠組みと、元のシステムのバランスの取れた切り離しを、性能保証を伴うより小さな表現へと導く。
ハンケル行列の固有値安定性特性を利用して、このレンズをトレーニング中にSSMに適用し、高い影響の次元のみを特定し保存する。
線形リカレントユニットのような線形時間不変SSMに適用するが、選択モデルにも拡張可能である。
実験により, 圧縮モデルでは, より小さな次元で直接訓練したモデルにより, タスククリティカル構造を損なうことなく, 適応性を保ちながら, トレーニング中の縮小が最適化を著しく促進することが示された。
言い換えれば、トレーニング中に大きく始まり、縮小するSSMは、高い性能を維持しながら、計算効率を達成する。
関連論文リスト
- Learning to Dissipate Energy in Oscillatory State-Space Models [51.98491034847041]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。
我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-17T23:15:17Z) - Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。
目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文 参考訳(メタデータ) (2025-03-21T00:48:31Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。
我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。
選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-04T05:45:48Z) - Model order reduction of deep structured state-space models: A system-theoretic approach [0.0]
深い構造化状態空間モデルは高い予測性能を提供する。
学習された表現は、しばしば非常に大きなモデル順序に悩まされるため、制御設計の目的には適さない。
モデルの整合性を改善するためにトレーニング損失に組み込むことのできる2つの正規化項を導入する。
提示された正則化器は、同相表現と、縮小順序モデルによるより高速な推論という観点で利点をもたらす。
論文 参考訳(メタデータ) (2024-03-21T21:05:59Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。