Fugu-MT 論文翻訳(概要): HOPE for a Robust Parameterization of Long-memory State Space Models

論文の概要: HOPE for a Robust Parameterization of Long-memory State Space Models

arxiv url: http://arxiv.org/abs/2405.13975v2
Date: Wed, 02 Oct 2024 16:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 03:00:35.585953
Title: HOPE for a Robust Parameterization of Long-memory State Space Models
Title（参考訳）: 長期記憶状態空間モデルのロバストパラメータ化のためのHOPE
Authors: Annan Yu, Michael W. Mahoney, N. Benjamin Erichson,
Abstract要約: 線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
参考スコア（独自算出の注目度）: 51.66430224089725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-space models (SSMs) that utilize linear, time-invariant (LTI) systems are known for their effectiveness in learning long sequences. To achieve state-of-the-art performance, an SSM often needs a specifically designed initialization, and the training of state matrices is on a logarithmic scale with a very small learning rate. To understand these choices from a unified perspective, we view SSMs through the lens of Hankel operator theory. Building upon it, we develop a new parameterization scheme, called HOPE, for LTI systems that utilizes Markov parameters within Hankel operators. Our approach helps improve the initialization and training stability, leading to a more robust parameterization. We efficiently implement these innovations by nonuniformly sampling the transfer functions of LTI systems, and they require fewer parameters compared to canonical SSMs. When benchmarked against HiPPO-initialized models such as S4 and S4D, an SSM parameterized by Hankel operators demonstrates improved performance on Long-Range Arena (LRA) tasks. Moreover, our new parameterization endows the SSM with non-decaying memory within a fixed time window, which is empirically corroborated by a sequential CIFAR-10 task with padded noise.
Abstract（参考訳）: 線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。最先端の性能を達成するために、SSMは特別に設計された初期化を必要とし、状態行列のトレーニングは、非常に少ない学習率で対数スケールである。これらの選択を統一的な視点から理解するために、ハンケル作用素理論のレンズを通してSSMを見る。そこで我々は,ハンケル作用素内でマルコフパラメータを利用する LTI システムのための新しいパラメータ化手法 HOPE を開発した。我々の手法は初期化と訓練の安定性の向上に役立ち、より堅牢なパラメータ化をもたらす。我々は、LTIシステムの転送関数を一様にサンプリングすることで、これらの革新を効率的に実装し、標準SSMと比較してパラメータを少なくする。 S4やS4DのようなHiPPO初期化モデルに対してベンチマークを行うと、ハンケル作用素によってパラメータ化されたSSMがLong-Range Arena(LRA)タスクのパフォーマンス改善を示す。さらに,このパラメータ化により,SSMに非遅延メモリを固定時間ウィンドウ内に付与する。

関連論文リスト

Free Parametrization of L2-bounded State Space Models [0.0]
本稿では、入力出力安定性とロバスト性を保証する構造化状態空間モデル(SSM)の新たなパラメトリゼーションであるL2RUを紹介する。 L2-bound を指定した正方形離散時間 LTI システムの非保守的パラメトリゼーションを導出し,L2RU アーキテクチャの基礎となる。
論文参考訳（メタデータ） (2025-03-31T07:56:17Z)
Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文参考訳（メタデータ） (2024-10-17T22:35:50Z)
Parameter-Efficient Fine-Tuning of State Space Models [10.817729275974829]
Deep State Space Models (SSM) は、言語モデリングの強力なツールとなり、シーケンス長で高いパフォーマンスと線形スケーラビリティを提供する。本稿では,パラメータ効率のよい微調整法(PEFT)のSSMモデルへの適用について検討する。 SSMモジュールに適したPEFT法であるスパース次元チューニング(SDT)を提案する。
論文参考訳（メタデータ） (2024-10-11T17:30:28Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Semantic Codebook Learning for Dynamic Recommendation Models [55.98259490159084]
動的シーケンシャルレコメンデーション(DSR)は、ユーザの振る舞いに基づいてモデルパラメータを生成し、シーケンシャルレコメンデーションのパーソナライズを改善する。巨大なパラメータ探索空間と疎結合でノイズの多いユーザ-イテム相互作用の課題に直面するため、生成されたモデルパラメータの適用性が低下する。 Semantic Codebook Learning for Dynamic Recommendation Models (SOLID)フレームワークは、これらの課題に効果的に取り組むことで、DSRの大幅な進歩を示す。
論文参考訳（メタデータ） (2024-07-31T19:25:25Z)
SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文参考訳（メタデータ） (2024-05-27T17:53:32Z)
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。 The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文参考訳（メタデータ） (2024-03-22T14:20:34Z)
EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文参考訳（メタデータ） (2024-02-23T12:36:31Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization [12.707050104493218]
再パラメータ化のない状態空間モデルは従来のRNNと同様のメモリ制限を示す。本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の帰結」を同定する。
論文参考訳（メタデータ） (2023-11-24T14:08:31Z)
Switching Autoregressive Low-rank Tensor Models [12.461139675114818]
自己回帰型低ランクテンソル(SALT)モデルを切り替える方法について述べる。 SALTはARHMMのテンソルを低ランクの分解でパラメータ化し、パラメータの数を制御する。本稿では,SALT,線形力学系,SLDS間の実用的関係を理論的に検証し議論する。
論文参考訳（メタデータ） (2023-06-05T22:25:28Z)
Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。 rev-to-SNN変換フレームワーク、続いてSNNトレーニング。我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文参考訳（メタデータ） (2022-10-23T04:10:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。