Fugu-MT 論文翻訳(概要): There is HOPE to Avoid HiPPOs for Long-memory State Space Models

論文の概要: There is HOPE to Avoid HiPPOs for Long-memory State Space Models

arxiv url: http://arxiv.org/abs/2405.13975v1
Date: Wed, 22 May 2024 20:20:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 20:14:01.761593
Title: There is HOPE to Avoid HiPPOs for Long-memory State Space Models
Title（参考訳）: 長期記憶状態空間モデルのためのHiPPOを回避するHOPE
Authors: Annan Yu, Michael W. Mahoney, N. Benjamin Erichson,
Abstract要約: 線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々のモデルは、LTIシステムの転送関数を一様にサンプリングすることで、これらの革新を効率的に実装する。
参考スコア（独自算出の注目度）: 51.66430224089725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-space models (SSMs) that utilize linear, time-invariant (LTI) systems are known for their effectiveness in learning long sequences. However, these models typically face several challenges: (i) they require specifically designed initializations of the system matrices to achieve state-of-the-art performance, (ii) they require training of state matrices on a logarithmic scale with very small learning rates to prevent instabilities, and (iii) they require the model to have exponentially decaying memory in order to ensure an asymptotically stable LTI system. To address these issues, we view SSMs through the lens of Hankel operator theory, which provides us with a unified theory for the initialization and training of SSMs. Building on this theory, we develop a new parameterization scheme, called HOPE, for LTI systems that utilizes Markov parameters within Hankel operators. This approach allows for random initializations of the LTI systems and helps to improve training stability, while also provides the SSMs with non-decaying memory capabilities. Our model efficiently implements these innovations by nonuniformly sampling the transfer functions of LTI systems, and it requires fewer parameters compared to canonical SSMs. When benchmarked against HiPPO-initialized models such as S4 and S4D, an SSM parameterized by Hankel operators demonstrates improved performance on Long-Range Arena (LRA) tasks. Moreover, we use a sequential CIFAR-10 task with padded noise to empirically corroborate our SSM's long memory capacity.
Abstract（参考訳）: 線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。しかしながら、これらのモデルは通常、いくつかの課題に直面します。 i) 最先端の性能を達成するためには,システム行列の初期化を特別に設計する必要がある。 (二)不安定を未然に防ぐために、非常に少ない学習率の対数スケールでの状態行列の訓練が必要である。第三に、漸近的に安定なLTIシステムを保証するために指数関数的に崩壊するメモリをモデルに要求する。これらの問題に対処するため、ハンケル作用素理論のレンズを通してSSMを考察し、SSMの初期化と訓練のための統一理論を提供する。この理論に基づいて,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。このアプローチは、LTIシステムのランダム初期化を可能にし、トレーニングの安定性を向上させると同時に、非遅延メモリ機能を備えたSSMも提供する。我々のモデルは,LTIシステムの転送関数を一様にサンプリングすることで,これらの革新を効率的に実現し,標準SSMと比較してパラメータを少なくする。 S4やS4DのようなHiPPO初期化モデルに対してベンチマークを行うと、ハンケル作用素によってパラメータ化されたSSMがLong-Range Arena(LRA)タスクのパフォーマンス改善を示す。さらに,SSMの長期記憶容量を実証的に相関させるために,パッド付きノイズ付きシーケンシャルCIFAR-10タスクを使用する。

関連論文リスト

Systolic Array-based Accelerator for Structured State-Space Models [1.137896937254823]
State-Space Models (SSM) は非常に長いデータシーケンスをリカレントやトランスフォーマーベースのモデルよりも効率的に処理する。本稿では,SSMの高速化を目的としたハードウェアアクセラレータEpochCoreを紹介する。 EpochCoreは、GPUと比較してLRAデータセットの平均2000倍のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-07-29T00:01:57Z)
W4S4: WaLRUS Meets S4 for Long-Range Sequence Modeling [23.453158933852357]
状態空間モデル(SSM)は、シーケンスモデリングの強力なコンポーネントとして登場した。冗長ウェーブレットフレームから構築された新しいSSMであるW4S4(WaLRUS for S4)を導入する。我々は,HipPOをベースとしたSSMよりも長い地平線上での情報保持が極めて優れていることを示す。
論文参考訳（メタデータ） (2025-06-09T16:33:29Z)
Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-05-17T23:15:17Z)
Free Parametrization of L2-bounded State Space Models [0.0]
本稿では、入力出力安定性とロバスト性を保証する構造化状態空間モデル(SSM)の新たなパラメトリゼーションであるL2RUを紹介する。 L2-bound を指定した正方形離散時間 LTI システムの非保守的パラメトリゼーションを導出し,L2RU アーキテクチャの基礎となる。
論文参考訳（メタデータ） (2025-03-31T07:56:17Z)
Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文参考訳（メタデータ） (2024-10-17T22:35:50Z)
Parameter-Efficient Fine-Tuning of State Space Models [10.817729275974829]
Deep State Space Models (SSM) は、言語モデリングの強力なツールとなり、シーケンス長で高いパフォーマンスと線形スケーラビリティを提供する。本稿では,パラメータ効率のよい微調整法(PEFT)のSSMモデルへの適用について検討する。 SSMモジュールに適したPEFT法であるスパース次元チューニング(SDT)を提案する。
論文参考訳（メタデータ） (2024-10-11T17:30:28Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Semantic Codebook Learning for Dynamic Recommendation Models [55.98259490159084]
動的シーケンシャルレコメンデーション(DSR)は、ユーザの振る舞いに基づいてモデルパラメータを生成し、シーケンシャルレコメンデーションのパーソナライズを改善する。巨大なパラメータ探索空間と疎結合でノイズの多いユーザ-イテム相互作用の課題に直面するため、生成されたモデルパラメータの適用性が低下する。 Semantic Codebook Learning for Dynamic Recommendation Models (SOLID)フレームワークは、これらの課題に効果的に取り組むことで、DSRの大幅な進歩を示す。
論文参考訳（メタデータ） (2024-07-31T19:25:25Z)
SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文参考訳（メタデータ） (2024-05-27T17:53:32Z)
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。 The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文参考訳（メタデータ） (2024-03-22T14:20:34Z)
EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文参考訳（メタデータ） (2024-02-23T12:36:31Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization [12.707050104493218]
再パラメータ化のない状態空間モデルは従来のRNNと同様のメモリ制限を示す。本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の帰結」を同定する。
論文参考訳（メタデータ） (2023-11-24T14:08:31Z)
Switching Autoregressive Low-rank Tensor Models [12.461139675114818]
自己回帰型低ランクテンソル(SALT)モデルを切り替える方法について述べる。 SALTはARHMMのテンソルを低ランクの分解でパラメータ化し、パラメータの数を制御する。本稿では,SALT,線形力学系,SLDS間の実用的関係を理論的に検証し議論する。
論文参考訳（メタデータ） (2023-06-05T22:25:28Z)
Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。 rev-to-SNN変換フレームワーク、続いてSNNトレーニング。我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文参考訳（メタデータ） (2022-10-23T04:10:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。