論文の概要: Yet Unnoticed in LSTM: Binary Tree Based Input Reordering, Weight Regularization, and Gate Nonlinearization
- arxiv url: http://arxiv.org/abs/2509.00087v1
- Date: Wed, 27 Aug 2025 10:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.065956
- Title: Yet Unnoticed in LSTM: Binary Tree Based Input Reordering, Weight Regularization, and Gate Nonlinearization
- Title(参考訳): LSTMでは知られていない:二分木に基づく入力順序付け、重み正規化、ゲート非線形化
- Authors: Mojtaba Moattari,
- Abstract要約: 本稿では,特定の入力指標を優先順位付けするための入力再順序付け手法について詳述する。
LSTMに基づくアプローチは、体重正規化を調べる文献には見出されていない。
入力と状態の重み付き表現としてのゲートは、十分に非線形化されていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LSTM models used in current Machine Learning literature and applications, has a promising solution for permitting long term information using gating mechanisms that forget and reduce effect of current input information. However, even with this pipeline, they do not optimally focus on specific old index or long-term information. This paper elaborates upon input reordering approaches to prioritize certain input indices. Moreover, no LSTM based approach is found in the literature that examines weight normalization while choosing the right weight and exponent of Lp norms through main supervised loss function. In this paper, we find out which norm best finds relationship between weights to either smooth or sparsify them. Lastly, gates, as weighted representations of inputs and states, which control reduction-extent of current input versus previous inputs (~ state), are not nonlinearized enough (through a small FFNN). As analogous to attention mechanisms, gates easily filter current information to bold (emphasize on) past inputs. Nonlinearized gates can more easily tune up to peculiar nonlinearities of specific input in the past. This type of nonlinearization is not proposed in the literature, to the best of author's knowledge. The proposed approaches are implemented and compared with a simple LSTM to understand their performance in text classification tasks. The results show they improve accuracy of LSTM.
- Abstract(参考訳): 現在の機械学習の文献や応用で使用されるLSTMモデルは、現在の入力情報の影響を忘れ、低減するゲーティング機構を使用して、長期的な情報を許容する有望なソリューションを持っている。
しかしながら、このパイプラインでさえ、特定の古いインデックスや長期的な情報に最適に集中していません。
本稿では,特定の入力指標を優先順位付けするための入力再順序付け手法について詳述する。
さらに、LSTMに基づくアプローチは、主教師付き損失関数を通してLpノルムの正しい重みと指数を選択しながら、体重正規化を調べる文献には見出されていない。
本稿では,ウェイト間の関係をスムーズに,あるいはスムーズにするか,あるいはスムーズにするか,どのノルムが最適かを明らかにする。
最後に、入力と状態の重み付けされた表現として、現在の入力と以前の入力(〜状態)の減少を制御しているゲートは、(小さなFFNNを通して)十分に非線形化されない。
注意機構の類似として、ゲートは過去の入力を大胆に(強調)するために電流情報を簡単にフィルタする。
非線形化ゲートは、過去の特定の入力の特異な非線形性に容易に対応できる。
このタイプの非線形化は、著者の知識を最大限に活用するために、文献では提案されていない。
提案手法は,テキスト分類タスクにおけるそれらの性能を理解するために,簡単なLSTMを用いて実装され,比較される。
その結果,LSTMの精度は向上した。
関連論文リスト
- Adaptive Nonlinear Vector Autoregression: Robust Forecasting for Noisy Chaotic Time Series [0.0]
ベクトル自己回帰と貯水池計算は カオス力学系の予測において 有望であることを示している
遅延埋め込み線形入力と浅い学習可能な多層パーセプトロンによって生成される特徴を組み合わせた適応的Nモデルを提案する。
論文 参考訳(メタデータ) (2025-07-11T16:40:10Z) - A Random Matrix Analysis of In-context Memorization for Nonlinear Attention [18.90197287760915]
非線形注意は、ランダムな入力に対する線形リッジ回帰よりも高い記憶誤差をもたらすことを示す。
その結果,非線形注意の記憶性能を管理するために,非線形性と入力構造がどのように相互作用するかが明らかになった。
論文 参考訳(メタデータ) (2025-06-23T13:56:43Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。
これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文 参考訳(メタデータ) (2024-11-19T03:48:48Z) - Precision measurement for open systems by non-hermitian linear response [9.087477434347218]
まず、散逸パラメータに対する推定精度の低い境界について、いくつかの一般的な結果を得る。
この下界は、符号化散逸作用素と進化時間との相関関係に関係している。
論文 参考訳(メタデータ) (2024-06-17T07:51:02Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - Physics-Based Deep Learning for Fiber-Optic Communication Systems [10.630021520220653]
非線形シュリンガー方程式(NLSE)により制御される光ファイバー通信システムのための新しい機械学習手法を提案する。
本研究の主目的は,NLSEの数値解法として一般的なスプリットステップ法(SSM)が,深い多層ニューラルネットワークと同じ機能を有することである。
我々は、SSMをパラメータ化し、ニューラルネットワークの重み行列と同様、線形ステップを一般線形関数として見ることにより、この接続を利用する。
論文 参考訳(メタデータ) (2020-10-27T12:55:23Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。