論文の概要: QL-LSTM: A Parameter-Efficient LSTM for Stable Long-Sequence Modeling
- arxiv url: http://arxiv.org/abs/2512.06582v1
- Date: Sat, 06 Dec 2025 22:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.417963
- Title: QL-LSTM: A Parameter-Efficient LSTM for Stable Long-Sequence Modeling
- Title(参考訳): QL-LSTM:安定長周期モデリングのためのパラメータ効率の良いLSTM
- Authors: Isaac Kofi Nti,
- Abstract要約: 本稿では、2つの独立したコンポーネントを通じて両方の課題に対処するために設計された再並行アーキテクチャであるQuantum-Leap LSTM(QL-LSTM)を紹介する。
文書長が拡張されたIMDBデータセットを用いて、感情分類におけるQL-LSTMを評価し、LSTM、GRU、BiLSTM参照モデルと比較した。
PSUGとHGR-ASCは時間ステップ当たりの効率が向上するが、現在のプロトタイプはリカレントモデル固有のシーケンシャルな性質によって制限されているため、カーネルレベルの最適化がなければウォールクロック速度の改善は得られない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural architectures such as LSTM and GRU remain widely used in sequence modeling, but they continue to face two core limitations: redundant gate-specific parameters and reduced ability to retain information across long temporal distances. This paper introduces the Quantum-Leap LSTM (QL-LSTM), a recurrent architecture designed to address both challenges through two independent components. The Parameter-Shared Unified Gating mechanism replaces all gate-specific transformations with a single shared weight matrix, reducing parameters by approximately 48 percent while preserving full gating behavior. The Hierarchical Gated Recurrence with Additive Skip Connections component adds a multiplication-free pathway that improves long-range information flow and reduces forget-gate degradation. We evaluate QL-LSTM on sentiment classification using the IMDB dataset with extended document lengths, comparing it to LSTM, GRU, and BiLSTM reference models. QL-LSTM achieves competitive accuracy while using substantially fewer parameters. Although the PSUG and HGR-ASC components are more efficient per time step, the current prototype remains limited by the inherent sequential nature of recurrent models and therefore does not yet yield wall-clock speed improvements without further kernel-level optimization.
- Abstract(参考訳): LSTMやGRUのようなリカレントニューラルネットワークは、シークエンスモデリングで広く使われているが、これらは、冗長なゲート固有パラメータと、長期にわたる情報保持能力の2つのコア制限に直面している。
本稿では、2つの独立したコンポーネントを通じて両方の課題に対処するために設計された再並行アーキテクチャであるQuantum-Leap LSTM(QL-LSTM)を紹介する。
パラメータ共有統一ゲーティング機構は、すべてのゲート固有の変換を単一の共有重み行列で置き換え、完全なゲーティング挙動を維持しながらパラメータを約48%削減する。
Hierarchical Gated Recurrence with Additive Skip Connectionsコンポーネントは、長距離情報フローを改善し、忘れゲートの劣化を低減する、乗算不要なパスを追加する。
文書長が拡張されたIMDBデータセットを用いて、感情分類におけるQL-LSTMを評価し、LSTM、GRU、BiLSTM参照モデルと比較した。
QL-LSTMは、かなり少ないパラメータを使用しながら、競合精度を達成する。
PSUG と HGR-ASC のコンポーネントは時間ステップごとに効率が良いが、現在のプロトタイプはリカレントモデル固有のシーケンシャルな性質によって制限されているため、カーネルレベルの最適化がなければウォールクロック速度の改善は得られない。
関連論文リスト
- QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory [11.996286932948124]
長短期記憶(LSTM)モデルは、都市電気通信予測のような領域における逐次モデリングタスクの中心である。
我々はQKAN-LSTM(Quantum-inspired Kolmogorov-Arnold Long Short-Term Memory)を提案する。
QKAN-LSTMは、Data Re-Uploading ActivationモジュールをLSTMのゲーティング構造に統合する。
論文 参考訳(メタデータ) (2025-12-04T18:03:23Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (2024-05-07T17:50:21Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - Self-Gated Memory Recurrent Network for Efficient Scalable HDR
Deghosting [59.04604001936661]
本稿では,任意の長さの動的シーケンスを浮き彫りにする新しいネットワーク型HDRデゴースト法を提案する。
本稿では,SGM(Self-Gated Memory)セルという新たなリカレントセルアーキテクチャを導入する。
提案手法は,既存の3つの公開データセットを定量的に比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-24T12:36:33Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - Sentiment Analysis Using Simplified Long Short-term Memory Recurrent
Neural Networks [1.5146765382501612]
GOPディベートTwitterデータセット上で感情分析を行う。
学習を高速化し、計算コストと時間を短縮するために、LSTMモデルのスリムバージョンを6つの異なるパラメータで削減する手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T12:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。