論文の概要: Enhancing Sequential Model Performance with Squared Sigmoid TanH (SST)
Activation Under Data Constraints
- arxiv url: http://arxiv.org/abs/2402.09034v1
- Date: Wed, 14 Feb 2024 09:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:20:15.548453
- Title: Enhancing Sequential Model Performance with Squared Sigmoid TanH (SST)
Activation Under Data Constraints
- Title(参考訳): データ制約下での正方形シグミドタンH(SST)活性化による逐次モデルの性能向上
- Authors: Barathi Subramanian, Rathinaraja Jeyaraj, Rakhmonov Akhrorjon
Akhmadjon Ugli, and Jeonghong Kim
- Abstract要約: 本研究では,データ制約下での逐次モデルの学習能力を高めるために,SST(Sigmoid TanH)アクティベーションの2乗化を提案する。
SSTは、信号が時間とともに伝播するにつれて、強い活性化と弱い活性化の差を増幅するために数学的なスクアリングを適用している。
我々は,手話認識,回帰,時系列分類タスクなどの多様なアプリケーションに対して,SSTを利用したLSTMとGRUを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions enable neural networks to learn complex representations
by introducing non-linearities. While feedforward models commonly use rectified
linear units, sequential models like recurrent neural networks, long short-term
memory (LSTMs) and gated recurrent units (GRUs) still rely on Sigmoid and TanH
activation functions. However, these classical activation functions often
struggle to model sparse patterns when trained on small sequential datasets to
effectively capture temporal dependencies. To address this limitation, we
propose squared Sigmoid TanH (SST) activation specifically tailored to enhance
the learning capability of sequential models under data constraints. SST
applies mathematical squaring to amplify differences between strong and weak
activations as signals propagate over time, facilitating improved gradient flow
and information filtering. We evaluate SST-powered LSTMs and GRUs for diverse
applications, such as sign language recognition, regression, and time-series
classification tasks, where the dataset is limited. Our experiments demonstrate
that SST models consistently outperform RNN-based models with baseline
activations, exhibiting improved test accuracy.
- Abstract(参考訳): 活性化関数により、ニューラルネットワークは非線形を導入することで複雑な表現を学ぶことができる。
feedforwardモデルは一般に整流線形単位を使用するが、リカレントニューラルネットワーク、long short-term memory(lstms)、gated recurrent unit(grus)といったシーケンシャルモデルはまだsgmoidおよびtanhアクティベーション関数に依存している。
しかしながら、これらの古典的なアクティベーション関数は、時間依存を効果的に捉えるために、小さなシーケンシャルデータセットでトレーニングされた場合、スパースパターンのモデル化に苦労することが多い。
この制限に対処するため、データ制約下での逐次モデルの学習能力を高めるために特別に調整された2乗シグモイドタンH(SST)アクティベーションを提案する。
SSTは、信号が時間とともに伝播し、勾配流と情報フィルタリングの改善を促進するため、強い活性化と弱い活性化の差を増幅するために数学的に近似する。
我々は,手話認識,回帰,時系列分類タスクなど,SSTを利用したLSTMとGRUを多種多様な用途で評価する。
実験の結果,SSTモデルはベースラインアクティベーションにより連続的にRNNモデルを上回る性能を示し,精度が向上した。
関連論文リスト
- DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs [59.434893231950205]
動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としている。
動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。
我々はDyG-Mambaがほとんどのデータセットで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-08-13T15:21:46Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - ELiSe: Efficient Learning of Sequences in Structured Recurrent Networks [1.5931140598271163]
局所的な常時オンおよび位相自由可塑性のみを用いて,効率的な学習シーケンスのモデルを構築した。
鳥の鳴き声学習のモックアップでELiSeの能力を実証し、パラメトリゼーションに関してその柔軟性を実証する。
論文 参考訳(メタデータ) (2024-02-26T17:30:34Z) - Correlation-aware Spatial-Temporal Graph Learning for Multivariate
Time-series Anomaly Detection [67.60791405198063]
時系列異常検出のための相関対応時空間グラフ学習(CST-GL)を提案する。
CST-GLは、多変量時系列相関学習モジュールを介してペアの相関を明示的にキャプチャする。
新規な異常スコアリング成分をCST-GLにさらに統合し、純粋に教師なしの方法で異常の度合いを推定する。
論文 参考訳(メタデータ) (2023-07-17T11:04:27Z) - Switching Autoregressive Low-rank Tensor Models [12.461139675114818]
自己回帰型低ランクテンソル(SALT)モデルを切り替える方法について述べる。
SALTはARHMMのテンソルを低ランクの分解でパラメータ化し、パラメータの数を制御する。
本稿では,SALT,線形力学系,SLDS間の実用的関係を理論的に検証し議論する。
論文 参考訳(メタデータ) (2023-06-05T22:25:28Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Simple Yet Surprisingly Effective Training Strategies for LSTMs in
Sensor-Based Human Activity Recognition [14.95985947077388]
本稿では,散発的活動認識のためのLSTMトレーニング戦略について検討する。
2つのSARシナリオに対して2つの単純かつ効果的なLSTM変種(遅延モデルと逆モデル)を提案する。
有望な結果は、HARアプリケーションにおける我々のアプローチの有効性を示した。
論文 参考訳(メタデータ) (2022-12-23T09:17:01Z) - Deep Bayesian Active Learning for Accelerating Stochastic Simulation [74.58219903138301]
Interactive Neural Process(INP)は、シミュレーションとアクティブな学習アプローチのためのディープラーニングフレームワークである。
能動的学習のために,NPベースモデルの潜時空間で計算された新しい取得関数Latent Information Gain (LIG)を提案する。
その結果,STNPは学習環境のベースラインを上回り,LIGは能動学習の最先端を達成していることがわかった。
論文 参考訳(メタデータ) (2021-06-05T01:31:51Z) - CARRNN: A Continuous Autoregressive Recurrent Neural Network for Deep
Representation Learning from Sporadic Temporal Data [1.8352113484137622]
本稿では,散発データにおける複数の時間的特徴をモデル化するための新しい深層学習モデルを提案する。
提案モデルはCARRNNと呼ばれ、時間ラグによって変調されたニューラルネットワークを用いてエンドツーエンドにトレーニング可能な一般化された離散時間自己回帰モデルを使用する。
アルツハイマー病進行モデルおよび集中治療単位(ICU)死亡率予測のためのデータを用いて,多変量時系列回帰タスクに適用した。
論文 参考訳(メタデータ) (2021-04-08T12:43:44Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。