論文の概要: Reservoir Computing for Fast, Simplified Reinforcement Learning on Memory Tasks
- arxiv url: http://arxiv.org/abs/2412.13093v1
- Date: Tue, 17 Dec 2024 17:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:44.403345
- Title: Reservoir Computing for Fast, Simplified Reinforcement Learning on Memory Tasks
- Title(参考訳): メモリタスクによる高速かつ簡易な強化学習のための貯留層計算
- Authors: Kevin McKee,
- Abstract要約: 貯留層計算はメモリタスクの強化学習を大幅に単純化し、高速化する。
特に、これらの発見は、主に効率的で汎用的なメモリシステムに依存するメタラーニングに大きな恩恵をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Tasks in which rewards depend upon past information not available in the current observation set can only be solved by agents that are equipped with short-term memory. Usual choices for memory modules include trainable recurrent hidden layers, often with gated memory. Reservoir computing presents an alternative, in which a recurrent layer is not trained, but rather has a set of fixed, sparse recurrent weights. The weights are scaled to produce stable dynamical behavior such that the reservoir state contains a high-dimensional, nonlinear impulse response function of the inputs. An output decoder network can then be used to map the compressive history represented by the reservoir's state to any outputs, including agent actions or predictions. In this study, we find that reservoir computing greatly simplifies and speeds up reinforcement learning on memory tasks by (1) eliminating the need for backpropagation of gradients through time, (2) presenting all recent history simultaneously to the downstream network, and (3) performing many useful and generic nonlinear computations upstream from the trained modules. In particular, these findings offer significant benefit to meta-learning that depends primarily on efficient and highly general memory systems.
- Abstract(参考訳): 報酬が現在の観測セットにはない過去の情報に依存するタスクは、短期記憶を備えたエージェントによってのみ解決できる。
メモリモジュールの選択肢としては、トレーニング可能なリカレントなシークレットレイヤ、しばしばゲートメモリがある。
貯留層計算(Reservoir computing)は、リカレント層がトレーニングされていない代わりに、固定された、スパースなリカレント重みを持つ代替手段である。
重みは、入力の高次元非線形インパルス応答関数を含むような安定な動的挙動を生成するためにスケールされる。
出力デコーダネットワークを使用して、貯水池の状態で表される圧縮履歴を、エージェントアクションや予測を含む任意の出力にマッピングすることができる。
本研究では,(1)時間経過に伴う勾配のバックプロパゲーションの必要性を排除し,(2)近年のすべての履歴を下流ネットワークに同時に提示し,(3)訓練されたモジュールから上流に多くの有用な非線形計算を行うことにより,貯水池計算がメモリタスクの強化学習を大幅に単純化し,高速化することを見出した。
特に、これらの発見は、主に効率的で汎用的なメモリシステムに依存するメタラーニングに大きな恩恵をもたらす。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Simple Cycle Reservoirs are Universal [0.358439716487063]
貯留層モデル(Reservoir model)は、トレーニング不能な入力と動的結合重みを固定したリカレントニューラルネットワークのサブクラスを形成する。
制限のない線形貯水池系を普遍的に近似できることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:35:59Z) - Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。
BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。
本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T00:32:55Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Task Agnostic Metrics for Reservoir Computing [0.0]
物理貯水池計算は、物理物質における時間的パターン認識を可能にする計算パラダイムである。
選択された力学系は、非線形性、複雑性、暗くなるメモリの3つの望ましい特性を持つ必要がある。
一般に, 減衰率の低いシステムは, 3つの評価指標すべてにおいて高い値に達することが示されている。
論文 参考訳(メタデータ) (2021-08-03T13:58:11Z) - Reservoir Stack Machines [77.12475691708838]
メモリ拡張ニューラルネットワークは、情報ストレージを必要とするタスクをサポートするために、明示的なメモリを備えたリカレントニューラルネットワークを備える。
本研究では,全ての決定論的文脈自由言語を確実に認識できるモデルである貯水池スタックマシンを導入する。
以上の結果から, 貯水池スタックマシンは, 訓練データよりも長い試験シーケンスでもゼロ誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2021-05-04T16:50:40Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Encoding-based Memory Modules for Recurrent Neural Networks [79.42778415729475]
本稿では,リカレントニューラルネットワークの設計とトレーニングの観点から,記憶サブタスクについて考察する。
本稿では,線形オートエンコーダを組み込んだエンコーディングベースのメモリコンポーネントを特徴とする新しいモデルであるLinear Memory Networkを提案する。
論文 参考訳(メタデータ) (2020-01-31T11:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。