Fugu-MT 論文翻訳(概要): Linear Dynamics-embedded Neural Network for Long-Sequence Modeling

論文の概要: Linear Dynamics-embedded Neural Network for Long-Sequence Modeling

arxiv url: http://arxiv.org/abs/2402.15290v1
Date: Fri, 23 Feb 2024 12:36:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 14:43:42.882003
Title: Linear Dynamics-embedded Neural Network for Long-Sequence Modeling
Title（参考訳）: 線形ダイナミクス埋め込みニューラルネットワークによる時系列モデリング
Authors: Tongyi Liang and Han-Xiong Li
Abstract要約: 我々はLinear Dynamics-embedded Neural Network (LDNN) と呼ばれる新しいニューラルネットワークを提案する。 SSMの連続的、離散的、畳み込み的特性により、LDNNはパラメータがほとんどなく、フレキシブルな推論が可能である。 2つの効率的な戦略は、畳み込みの時間的複雑さを$O(LNHmaxL, N)$から$O(LNmax H, log L)$に減少させる。
参考スコア（独自算出の注目度）: 6.214987339902511
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The trade-off between performance and computational efficiency in long-sequence modeling becomes a bottleneck for existing models. Inspired by the continuous state space models (SSMs) with multi-input and multi-output in control theory, we propose a new neural network called Linear Dynamics-embedded Neural Network (LDNN). SSMs' continuous, discrete, and convolutional properties enable LDNN to have few parameters, flexible inference, and efficient training in long-sequence tasks. Two efficient strategies, diagonalization and $'\text{Disentanglement then Fast Fourier Transform (FFT)}'$, are developed to reduce the time complexity of convolution from $O(LNH\max\{L, N\})$ to $O(LN\max \{H, \log L\})$. We further improve LDNN through bidirectional noncausal and multi-head settings to accommodate a broader range of applications. Extensive experiments on the Long Range Arena (LRA) demonstrate the effectiveness and state-of-the-art performance of LDNN.
Abstract（参考訳）: ロングシーケンスモデリングにおける性能と計算効率のトレードオフは、既存のモデルのボトルネックとなる。制御理論におけるマルチインプットとマルチアウトプットを備えた連続状態空間モデル(SSM)に着想を得て,線形ダイナミクス埋め込みニューラルネットワーク(LDNN)と呼ばれる新しいニューラルネットワークを提案する。 SSMの連続的、離散的、畳み込み的特性により、LDNNはパラメータがほとんどなく、フレキシブルな推論が可能である。対角化と$'\text{Disentanglement then Fast Fourier Transform (FFT)}'$という2つの効率的な戦略が開発され、畳み込みの時間的複雑さを$O(LNH\max\{L, N\})$から$O(LN\max \{H, \log L\})$へと減少させる。我々は、広範囲のアプリケーションに対応するために、双方向の非因果設定とマルチヘッド設定により、LDNNをさらに改善する。 LRA(Long Range Arena)の大規模な実験は、LDNNの有効性と最先端の性能を示す。

関連論文リスト

Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models [11.472831744634156]
ステートスペースモデル(SSM)は、一貫したメモリ使用量と高性能のため、トランスフォーマーの魅力的な代替品として浮上している。これを解決するために、ビット幅の少ないデータフォーマットでSSMを定量化することで、モデルのサイズを減らし、ハードウェアアクセラレーションの恩恵を受けることができる。 We present Quamba2, compatible with W8A8, W4A8, W4A16 for both Mamba1 and Mamba2 backbones。
論文参考訳（メタデータ） (2025-03-28T21:10:39Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Parameter-Efficient Fine-Tuning of State Space Models [10.817729275974829]
Deep State Space Models (SSM) は、言語モデリングの強力なツールとなり、シーケンス長で高いパフォーマンスと線形スケーラビリティを提供する。本稿では,パラメータ効率のよい微調整法(PEFT)のSSMモデルへの適用について検討する。 SSMモジュールに適したPEFT法であるスパース次元チューニング(SDT)を提案する。
論文参考訳（メタデータ） (2024-10-11T17:30:28Z)
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-01T18:01:34Z)
Accelerating Toeplitz Neural Network with Constant-time Inference Complexity [21.88774274472737]
Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
論文参考訳（メタデータ） (2023-11-15T07:50:57Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。 LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-12-22T11:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。