論文の概要: Fast Saturating Gate for Learning Long Time Scales with Recurrent Neural
Networks
- arxiv url: http://arxiv.org/abs/2210.01348v1
- Date: Tue, 4 Oct 2022 03:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:14:41.957069
- Title: Fast Saturating Gate for Learning Long Time Scales with Recurrent Neural
Networks
- Title(参考訳): リカレントニューラルネットワークによる長時間学習のための高速飽和ゲート
- Authors: Kentaro Ohno, Sekitoshi Kanai, Yasutoshi Ida
- Abstract要約: 簡単な関数合成による入力に対して2倍の指数収束率を持つ高速ゲートと呼ばれるゲート関数を提案する。
提案手法は, 非常に長い時間スケールを含むベンチマークタスクにおいて, 精度と計算効率において, 従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 13.518582483147325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gate functions in recurrent models, such as an LSTM and GRU, play a central
role in learning various time scales in modeling time series data by using a
bounded activation function. However, it is difficult to train gates to capture
extremely long time scales due to gradient vanishing of the bounded function
for large inputs, which is known as the saturation problem. We closely analyze
the relation between saturation of the gate function and efficiency of the
training. We prove that the gradient vanishing of the gate function can be
mitigated by accelerating the convergence of the saturating function, i.e.,
making the output of the function converge to 0 or 1 faster. Based on the
analysis results, we propose a gate function called fast gate that has a doubly
exponential convergence rate with respect to inputs by simple function
composition. We empirically show that our method outperforms previous methods
in accuracy and computational efficiency on benchmark tasks involving extremely
long time scales.
- Abstract(参考訳): LSTMやGRUのような反復モデルにおけるゲート関数は、有界活性化関数を用いて時系列データをモデル化する際の様々な時間スケールの学習において中心的な役割を果たす。
しかし, 飽和問題として知られる大入力の有界関数の勾配の消失により, ゲートが極めて長い時間スケールを取るように訓練することは困難である。
ゲート関数の飽和度とトレーニングの効率との関係を詳細に分析する。
ゲート関数の勾配の消失は飽和関数の収束を加速することで緩和できる、すなわち関数の出力を0または1に早く収束させることで証明する。
解析結果に基づいて、簡単な関数合成による入力に対して2倍の指数収束率を持つ高速ゲートと呼ばれるゲート関数を提案する。
提案手法は,非常に長い時間スケールを含むベンチマークタスクにおいて,従来の手法よりも精度と計算効率が優れていることを示す。
関連論文リスト
- Gate Fidelity and Gate Driven Dephasing via Time-Dependent Bloch-Redfield Master Equation [0.6036360355596617]
この研究は、高速な外部駆動を持つ線形高調波発振器の浴槽における駆動量子ビットの進化を調べる。
浴槽との相互作用がゲート忠実度に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-10-08T18:50:20Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Accurate methods for the analysis of strong-drive effects in parametric
gates [94.70553167084388]
正確な数値と摂動解析手法を用いて効率的にゲートパラメータを抽出する方法を示す。
我々は,$i$SWAP, Control-Z, CNOT など,異なる種類のゲートに対する最適操作条件を同定する。
論文 参考訳(メタデータ) (2021-07-06T02:02:54Z) - Stochastic Gradient Langevin with Delayed Gradients [29.6870062491741]
本研究では,計算に用いた遅延勾配情報による誤差が測定値の収束率に有意な影響を及ぼさないことを示す。
計算に用いた遅延勾配情報による誤差は, 測定値の収束率に有意な影響を与えず, ウォールクロック時間における高速化の可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-12T17:51:30Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。