論文の概要: Enhancing Sequential Model Performance with Squared Sigmoid TanH (SST)
Activation Under Data Constraints
- arxiv url: http://arxiv.org/abs/2402.09034v1
- Date: Wed, 14 Feb 2024 09:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:20:15.548453
- Title: Enhancing Sequential Model Performance with Squared Sigmoid TanH (SST)
Activation Under Data Constraints
- Title(参考訳): データ制約下での正方形シグミドタンH(SST)活性化による逐次モデルの性能向上
- Authors: Barathi Subramanian, Rathinaraja Jeyaraj, Rakhmonov Akhrorjon
Akhmadjon Ugli, and Jeonghong Kim
- Abstract要約: 本研究では,データ制約下での逐次モデルの学習能力を高めるために,SST(Sigmoid TanH)アクティベーションの2乗化を提案する。
SSTは、信号が時間とともに伝播するにつれて、強い活性化と弱い活性化の差を増幅するために数学的なスクアリングを適用している。
我々は,手話認識,回帰,時系列分類タスクなどの多様なアプリケーションに対して,SSTを利用したLSTMとGRUを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions enable neural networks to learn complex representations
by introducing non-linearities. While feedforward models commonly use rectified
linear units, sequential models like recurrent neural networks, long short-term
memory (LSTMs) and gated recurrent units (GRUs) still rely on Sigmoid and TanH
activation functions. However, these classical activation functions often
struggle to model sparse patterns when trained on small sequential datasets to
effectively capture temporal dependencies. To address this limitation, we
propose squared Sigmoid TanH (SST) activation specifically tailored to enhance
the learning capability of sequential models under data constraints. SST
applies mathematical squaring to amplify differences between strong and weak
activations as signals propagate over time, facilitating improved gradient flow
and information filtering. We evaluate SST-powered LSTMs and GRUs for diverse
applications, such as sign language recognition, regression, and time-series
classification tasks, where the dataset is limited. Our experiments demonstrate
that SST models consistently outperform RNN-based models with baseline
activations, exhibiting improved test accuracy.
- Abstract(参考訳): 活性化関数により、ニューラルネットワークは非線形を導入することで複雑な表現を学ぶことができる。
feedforwardモデルは一般に整流線形単位を使用するが、リカレントニューラルネットワーク、long short-term memory(lstms)、gated recurrent unit(grus)といったシーケンシャルモデルはまだsgmoidおよびtanhアクティベーション関数に依存している。
しかしながら、これらの古典的なアクティベーション関数は、時間依存を効果的に捉えるために、小さなシーケンシャルデータセットでトレーニングされた場合、スパースパターンのモデル化に苦労することが多い。
この制限に対処するため、データ制約下での逐次モデルの学習能力を高めるために特別に調整された2乗シグモイドタンH(SST)アクティベーションを提案する。
SSTは、信号が時間とともに伝播し、勾配流と情報フィルタリングの改善を促進するため、強い活性化と弱い活性化の差を増幅するために数学的に近似する。
我々は,手話認識,回帰,時系列分類タスクなど,SSTを利用したLSTMとGRUを多種多様な用途で評価する。
実験の結果,SSTモデルはベースラインアクティベーションにより連続的にRNNモデルを上回る性能を示し,精度が向上した。
関連論文リスト
- Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [17.611912733951662]
リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、時間的依存をモデル化する能力で有名である。
本稿では,バニラRNNの時間的モデリング能力を高めるために,DMU(Delayed Memory Unit)を提案する。
提案したDMUは、広範囲の逐次モデリングタスクにおいて優れた時間的モデリング能力を示す。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Correlation-aware Spatial-Temporal Graph Learning for Multivariate
Time-series Anomaly Detection [67.60791405198063]
時系列異常検出のための相関対応時空間グラフ学習(CST-GL)を提案する。
CST-GLは、多変量時系列相関学習モジュールを介してペアの相関を明示的にキャプチャする。
新規な異常スコアリング成分をCST-GLにさらに統合し、純粋に教師なしの方法で異常の度合いを推定する。
論文 参考訳(メタデータ) (2023-07-17T11:04:27Z) - Switching Autoregressive Low-rank Tensor Models [12.461139675114818]
自己回帰型低ランクテンソル(SALT)モデルを切り替える方法について述べる。
SALTはARHMMのテンソルを低ランクの分解でパラメータ化し、パラメータの数を制御する。
本稿では,SALT,線形力学系,SLDS間の実用的関係を理論的に検証し議論する。
論文 参考訳(メタデータ) (2023-06-05T22:25:28Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Simple Yet Surprisingly Effective Training Strategies for LSTMs in
Sensor-Based Human Activity Recognition [14.95985947077388]
本稿では,散発的活動認識のためのLSTMトレーニング戦略について検討する。
2つのSARシナリオに対して2つの単純かつ効果的なLSTM変種(遅延モデルと逆モデル)を提案する。
有望な結果は、HARアプリケーションにおける我々のアプローチの有効性を示した。
論文 参考訳(メタデータ) (2022-12-23T09:17:01Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - Deep Bayesian Active Learning for Accelerating Stochastic Simulation [74.58219903138301]
Interactive Neural Process(INP)は、シミュレーションとアクティブな学習アプローチのためのディープラーニングフレームワークである。
能動的学習のために,NPベースモデルの潜時空間で計算された新しい取得関数Latent Information Gain (LIG)を提案する。
その結果,STNPは学習環境のベースラインを上回り,LIGは能動学習の最先端を達成していることがわかった。
論文 参考訳(メタデータ) (2021-06-05T01:31:51Z) - CARRNN: A Continuous Autoregressive Recurrent Neural Network for Deep
Representation Learning from Sporadic Temporal Data [1.8352113484137622]
本稿では,散発データにおける複数の時間的特徴をモデル化するための新しい深層学習モデルを提案する。
提案モデルはCARRNNと呼ばれ、時間ラグによって変調されたニューラルネットワークを用いてエンドツーエンドにトレーニング可能な一般化された離散時間自己回帰モデルを使用する。
アルツハイマー病進行モデルおよび集中治療単位(ICU)死亡率予測のためのデータを用いて,多変量時系列回帰タスクに適用した。
論文 参考訳(メタデータ) (2021-04-08T12:43:44Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。