論文の概要: Hankel Singular Value Regularization for Highly Compressible State Space Models
- arxiv url: http://arxiv.org/abs/2510.22951v1
- Date: Mon, 27 Oct 2025 03:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.998638
- Title: Hankel Singular Value Regularization for Highly Compressible State Space Models
- Title(参考訳): 高圧縮性状態空間モデルに対するハンケル特異値正規化
- Authors: Paul Schwerdtner, Jules Berman, Benjamin Peherstorfer,
- Abstract要約: 状態空間モデルのハンケル特異値の和を正則化すると、これらの特異値の高速な崩壊が起こり、圧縮可能なモデルになる。
Long Range Arenaベンチマークの実験では、正規化された状態空間層は標準状態空間層よりも最大10$times$圧縮可能であることが示された。
- 参考スコア(独自算出の注目度): 10.923877073891445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks using state space models as layers are well suited for long-range sequence tasks but can be challenging to compress after training. We use that regularizing the sum of Hankel singular values of state space models leads to a fast decay of these singular values and thus to compressible models. To make the proposed Hankel singular value regularization scalable, we develop an algorithm to efficiently compute the Hankel singular values during training iterations by exploiting the specific block-diagonal structure of the system matrices that is we use in our state space model parametrization. Experiments on Long Range Arena benchmarks demonstrate that the regularized state space layers are up to 10$\times$ more compressible than standard state space layers while maintaining high accuracy.
- Abstract(参考訳): 状態空間モデルを層として使用するディープニューラルネットワークは、長距離シーケンスタスクには適しているが、トレーニング後に圧縮することが難しい。
状態空間モデルのハンケル特異値の和を正則化すると、これらの特異値の高速な崩壊が起こり、圧縮可能なモデルになる。
提案したハンケル特異値正規化をスケーラブルにするために,我々の状態空間モデルパラメトリゼーションで使用するシステム行列のブロック対角構造を利用して,トレーニング繰り返し中のハンケル特異値を効率的に計算するアルゴリズムを開発した。
Long Range Arenaベンチマークの実験では、正規化された状態空間層は、高い精度を維持しながら、標準状態空間層よりも最大10$\times$圧縮可能であることが示された。
関連論文リスト
- The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Random Smoothing Regularization in Kernel Gradient Descent Learning [24.383121157277007]
古典的ソボレフ空間に属する幅広い基底真理関数を適応的に学習できるランダムなスムーズな正規化のための枠組みを提案する。
我々の推定器は、基礎となるデータの構造的仮定に適応し、次元の呪いを避けることができる。
論文 参考訳(メタデータ) (2023-05-05T13:37:34Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Robust and Provably Monotonic Networks [0.0]
深層学習モデルのリプシッツ定数を制約する新しい手法を提案する。
LHCbのリアルタイムデータ処理システムにおいて, 強靭で解釈可能な判別器を学習するために, アルゴリズムがどのように使われたかを示す。
論文 参考訳(メタデータ) (2021-11-30T19:01:32Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。