論文の概要: The impact of memory on learning sequence-to-sequence tasks
- arxiv url: http://arxiv.org/abs/2205.14683v2
- Date: Thu, 14 Dec 2023 15:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 05:42:58.380494
- Title: The impact of memory on learning sequence-to-sequence tasks
- Title(参考訳): 逐次学習課題における記憶の影響
- Authors: Alireza Seif, Sarah A.M. Loos, Gennaro Tucci, \'Edgar Rold\'an,
Sebastian Goldt
- Abstract要約: 自然言語処理におけるニューラルネットワークの最近の成功は、シーケンシャル・ツー・シーケンス(seq2seq)タスクに新たな注目を集めている。
本稿では,シークエンスにおけるメモリの次数,すなわち非マルコビアン性に対する明示的な制御の利点を生かしたSeq2seqタスクのモデルを提案する。
- 参考スコア(独自算出の注目度): 6.603326895384289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of neural networks in natural language processing has
drawn renewed attention to learning sequence-to-sequence (seq2seq) tasks. While
there exists a rich literature that studies classification and regression tasks
using solvable models of neural networks, seq2seq tasks have not yet been
studied from this perspective. Here, we propose a simple model for a seq2seq
task that has the advantage of providing explicit control over the degree of
memory, or non-Markovianity, in the sequences -- the stochastic
switching-Ornstein-Uhlenbeck (SSOU) model. We introduce a measure of
non-Markovianity to quantify the amount of memory in the sequences. For a
minimal auto-regressive (AR) learning model trained on this task, we identify
two learning regimes corresponding to distinct phases in the stationary state
of the SSOU process. These phases emerge from the interplay between two
different time scales that govern the sequence statistics. Moreover, we observe
that while increasing the integration window of the AR model always improves
performance, albeit with diminishing returns, increasing the non-Markovianity
of the input sequences can improve or degrade its performance. Finally, we
perform experiments with recurrent and convolutional neural networks that show
that our observations carry over to more complicated neural network
architectures.
- Abstract(参考訳): 自然言語処理におけるニューラルネットワークの最近の成功は、seq2seq(learning sequence-to-sequence)タスクに新たな注目を集めている。
ニューラルネットワークの可解モデルを用いて分類と回帰タスクを研究する豊富な文献があるが、seq2seqタスクはこの観点からはまだ研究されていない。
本稿では,ssou(stochastic switching-ornstein-uhlenbeck)モデルを用いて,シーケンス内のメモリ量や非マルコフ性に対する明示的な制御を提供するという利点を持つseq2seqタスクのための単純なモデルを提案する。
シーケンス中のメモリ量を定量化するために,非マルコビアン性の尺度を導入する。
このタスクで訓練された最小の自己回帰学習モデルに対して、SSOUプロセスの定常状態の異なる位相に対応する2つの学習体制を同定する。
これらの位相は、シーケンス統計を管理する2つの異なる時間スケール間の相互作用から生じる。
さらに,ARモデルの統合ウィンドウの増大が常に性能を向上する一方で,リターンが低下する一方,入力シーケンスの非マルコビアン性は向上または低下する可能性があることを観察した。
最後に,繰り返しおよび畳み込みニューラルネットワークを用いて実験を行い,我々の観測がより複雑なニューラルネットワークアーキテクチャに引き継がれることを示す。
関連論文リスト
- State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。
ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。
微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-06-12T17:06:07Z) - Time Elastic Neural Networks [2.1756081703276]
時間弾性ニューラルネットワーク(teNN)という,非定型ニューラルネットワークアーキテクチャの導入と詳細化について述べる。
古典的ニューラルネットワークアーキテクチャと比較して新しいのは、時間ゆがみ能力を明確に組み込んでいることだ。
トレーニング過程において,TENNは各細胞に必要となるニューロン数を減少させることに成功した。
論文 参考訳(メタデータ) (2024-05-27T09:01:30Z) - Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Oscillatory Fourier Neural Network: A Compact and Efficient Architecture
for Sequential Processing [16.69710555668727]
本稿では,コサイン活性化と時系列処理のための時間変化成分を有する新しいニューロンモデルを提案する。
提案したニューロンは、スペクトル領域に逐次入力を投影するための効率的なビルディングブロックを提供する。
IMDBデータセットの感情分析に提案されたモデルを適用すると、5時間以内のテスト精度は89.4%に達する。
論文 参考訳(メタデータ) (2021-09-14T19:08:07Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Gradient Projection Memory for Continual Learning [5.43185002439223]
過去のタスクを忘れずに継続的に学習する能力は、人工学習システムにとって望ましい属性です。
ニューラルネットワークは,従来のタスクにとって重要と考えられる勾配部分空間に直交方向の勾配を向けることで,新しいタスクを学習する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:31:29Z) - Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting [54.03356526990088]
本稿では,Sequence Span Rewriting (SSR) を自己教師付きシーケンス・ツー・シーケンス(seq2seq)事前学習目的として提案する。
SSRは、モデルに不完全なスパンを書き直すように監督することで、より細かい学習信号をテキスト表現に提供します。
各種Seq2seqタスクのT5モデルによる実験により,SSRはSeq2seq事前学習を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-01-02T10:27:11Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。