論文の概要: There is HOPE to Avoid HiPPOs for Long-memory State Space Models
- arxiv url: http://arxiv.org/abs/2405.13975v1
- Date: Wed, 22 May 2024 20:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:14:01.761593
- Title: There is HOPE to Avoid HiPPOs for Long-memory State Space Models
- Title(参考訳): 長期記憶状態空間モデルのためのHiPPOを回避するHOPE
- Authors: Annan Yu, Michael W. Mahoney, N. Benjamin Erichson,
- Abstract要約: 線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々のモデルは、LTIシステムの転送関数を一様にサンプリングすることで、これらの革新を効率的に実装する。
- 参考スコア(独自算出の注目度): 51.66430224089725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs) that utilize linear, time-invariant (LTI) systems are known for their effectiveness in learning long sequences. However, these models typically face several challenges: (i) they require specifically designed initializations of the system matrices to achieve state-of-the-art performance, (ii) they require training of state matrices on a logarithmic scale with very small learning rates to prevent instabilities, and (iii) they require the model to have exponentially decaying memory in order to ensure an asymptotically stable LTI system. To address these issues, we view SSMs through the lens of Hankel operator theory, which provides us with a unified theory for the initialization and training of SSMs. Building on this theory, we develop a new parameterization scheme, called HOPE, for LTI systems that utilizes Markov parameters within Hankel operators. This approach allows for random initializations of the LTI systems and helps to improve training stability, while also provides the SSMs with non-decaying memory capabilities. Our model efficiently implements these innovations by nonuniformly sampling the transfer functions of LTI systems, and it requires fewer parameters compared to canonical SSMs. When benchmarked against HiPPO-initialized models such as S4 and S4D, an SSM parameterized by Hankel operators demonstrates improved performance on Long-Range Arena (LRA) tasks. Moreover, we use a sequential CIFAR-10 task with padded noise to empirically corroborate our SSM's long memory capacity.
- Abstract(参考訳): 線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
しかしながら、これらのモデルは通常、いくつかの課題に直面します。
i) 最先端の性能を達成するためには,システム行列の初期化を特別に設計する必要がある。
(二)不安定を未然に防ぐために、非常に少ない学習率の対数スケールでの状態行列の訓練が必要である。
第三に、漸近的に安定なLTIシステムを保証するために指数関数的に崩壊するメモリをモデルに要求する。
これらの問題に対処するため、ハンケル作用素理論のレンズを通してSSMを考察し、SSMの初期化と訓練のための統一理論を提供する。
この理論に基づいて,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
このアプローチは、LTIシステムのランダム初期化を可能にし、トレーニングの安定性を向上させると同時に、非遅延メモリ機能を備えたSSMも提供する。
我々のモデルは,LTIシステムの転送関数を一様にサンプリングすることで,これらの革新を効率的に実現し,標準SSMと比較してパラメータを少なくする。
S4やS4DのようなHiPPO初期化モデルに対してベンチマークを行うと、ハンケル作用素によってパラメータ化されたSSMがLong-Range Arena(LRA)タスクのパフォーマンス改善を示す。
さらに,SSMの長期記憶容量を実証的に相関させるために,パッド付きノイズ付きシーケンシャルCIFAR-10タスクを使用する。
関連論文リスト
- Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models [14.932318540666547]
状態空間モデル(SSM)パラメータを初期化する現在の手法は、HiPPOフレームワークに依存している。
入力シーケンスの自己相関を考慮し、SSMスキームの役割を更に検討する。
SSM状態行列の固有値の虚部がSSM最適化問題の条件付けを決定することを示す。
論文 参考訳(メタデータ) (2024-11-29T03:55:19Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Semantic Codebook Learning for Dynamic Recommendation Models [55.98259490159084]
動的シーケンシャルレコメンデーション(DSR)は、ユーザの振る舞いに基づいてモデルパラメータを生成し、シーケンシャルレコメンデーションのパーソナライズを改善する。
巨大なパラメータ探索空間と疎結合でノイズの多いユーザ-イテム相互作用の課題に直面するため、生成されたモデルパラメータの適用性が低下する。
Semantic Codebook Learning for Dynamic Recommendation Models (SOLID)フレームワークは、これらの課題に効果的に取り組むことで、DSRの大幅な進歩を示す。
論文 参考訳(メタデータ) (2024-07-31T19:25:25Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization [12.707050104493218]
再パラメータ化のない状態空間モデルは従来のRNNと同様のメモリ制限を示す。
本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の帰結」を同定する。
論文 参考訳(メタデータ) (2023-11-24T14:08:31Z) - Switching Autoregressive Low-rank Tensor Models [12.461139675114818]
自己回帰型低ランクテンソル(SALT)モデルを切り替える方法について述べる。
SALTはARHMMのテンソルを低ランクの分解でパラメータ化し、パラメータの数を制御する。
本稿では,SALT,線形力学系,SLDS間の実用的関係を理論的に検証し議論する。
論文 参考訳(メタデータ) (2023-06-05T22:25:28Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。