Fugu-MT 論文翻訳(概要): EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization

論文の概要: EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization

arxiv url: http://arxiv.org/abs/2402.15290v3
Date: Sun, 06 Oct 2024 15:14:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 03:14:54.097886
Title: EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization
Title（参考訳）: 最大テンソル畳み込みとブロック対角化による効率的な状態空間モデル
Authors: Tongyi Liang, Han-Xiong Li,
Abstract要約: 本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
参考スコア（独自算出の注目度）: 5.260841516691153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing models encounter bottlenecks in balancing performance and computational efficiency when modeling long sequences. Although the state space model (SSM) has achieved remarkable success in handling long sequence tasks, it still faces the problem of large number of parameters. In order to further improve the efficiency of SSM, we propose a new state space layer based on multiple-input multiple-output SSM, called efficient SSM (eSSM). Our eSSM is built on the convolutional representation of multi-input and multi-input (MIMO) SSM. We propose a variety of effective strategies to improve the computational efficiency. The diagonalization of the system matrix first decouples the original system. Then a fast tensor convolution is proposed based on the fast Fourier transform. In addition, the block diagonalization of the SSM further reduces the model parameters and improves the model flexibility. Extensive experimental results show that the performance of the proposed model on multiple databases matches the performance of state-of-the-art models, such as S4, and is significantly better than Transformers and LSTM. In the model efficiency benchmark, the parameters of eSSM are only 12.89\% of LSTM and 13.24\% of Mamba. The training speed of eSSM is 3.94 times faster than LSTM and 1.35 times faster than Mamba. Code is available at: \href{https://github.com/leonty1/essm}{https://github.com/leonty1/essm}.
Abstract（参考訳）: 既存のモデルは、長いシーケンスをモデル化する際のパフォーマンスと計算効率のバランスのボトルネックに直面する。状態空間モデル(SSM)は長いシーケンスタスクの処理において顕著な成功を収めてきたが、多くのパラメーターの問題に直面している。本研究では,SSMの効率をさらに向上するために,eSSM(eSSM)と呼ばれるマルチインプットマルチアウトプットSSMに基づく新しい状態空間層を提案する。我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。計算効率を改善するための様々な効果的な戦略を提案する。系行列の対角化は、最初に元の系を分離する。次に、高速フーリエ変換に基づいて高速テンソル畳み込みを提案する。さらに、SSMのブロック対角化により、モデルパラメータがさらに小さくなり、モデルの柔軟性が向上する。大規模な実験結果から,提案モデルの性能はS4などの最先端モデルの性能と一致し,トランスフォーマーやLSTMよりも優れていることがわかった。モデル効率ベンチマークでは、eSSM のパラメータは LSTM の 12.89 % と Mamba の 13.24 % のみである。 eSSMのトレーニング速度はLSTMの3.94倍、Mambaの1.35倍である。コードは以下の通り。 \href{https://github.com/leonty1/essm}{https://github.com/leonty1/essm}。

関連論文リスト

Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models [11.472831744634156]
ステートスペースモデル(SSM)は、一貫したメモリ使用量と高性能のため、トランスフォーマーの魅力的な代替品として浮上している。これを解決するために、ビット幅の少ないデータフォーマットでSSMを定量化することで、モデルのサイズを減らし、ハードウェアアクセラレーションの恩恵を受けることができる。 We present Quamba2, compatible with W8A8, W4A8, W4A16 for both Mamba1 and Mamba2 backbones。
論文参考訳（メタデータ） (2025-03-28T21:10:39Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Parameter-Efficient Fine-Tuning of State Space Models [10.817729275974829]
Deep State Space Models (SSM) は、言語モデリングの強力なツールとなり、シーケンス長で高いパフォーマンスと線形スケーラビリティを提供する。本稿では,パラメータ効率のよい微調整法(PEFT)のSSMモデルへの適用について検討する。 SSMモジュールに適したPEFT法であるスパース次元チューニング(SDT)を提案する。
論文参考訳（メタデータ） (2024-10-11T17:30:28Z)
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-01T18:01:34Z)
Accelerating Toeplitz Neural Network with Constant-time Inference Complexity [21.88774274472737]
Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
論文参考訳（メタデータ） (2023-11-15T07:50:57Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。 LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-12-22T11:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。