論文の概要: Revisiting Recurrent Reinforcement Learning with Memory Monoids
- arxiv url: http://arxiv.org/abs/2402.09900v2
- Date: Sun, 17 Mar 2024 15:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:02:06.583320
- Title: Revisiting Recurrent Reinforcement Learning with Memory Monoids
- Title(参考訳): メモリ・モノイドを用いた繰り返し強化学習の再考
- Authors: Steven Morad, Chris Lu, Ryan Kortvelesy, Stephan Liwicki, Jakob Foerster, Amanda Prorok,
- Abstract要約: 我々は、リカレントニューラルネットワーク(RNN)や部分観測可能な決定変換器(POMDP)などのメモリモデルについて検討する。
特にリニアリカレントモデルと呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにうまくスケールしない。
本稿では,RLにおける再帰損失関数の実装を簡略化し,サンプル効率を改善し,リターンを向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 11.302674177386383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory models such as Recurrent Neural Networks (RNNs) and Transformers address Partially Observable Markov Decision Processes (POMDPs) by mapping trajectories to latent Markov states. Neither model scales particularly well to long sequences, especially compared to an emerging class of memory models sometimes called linear recurrent models. We discover that we can model the recurrent update of these models using a monoid, leading us to reformulate existing models using a novel memory monoid framework. We revisit the traditional approach to batching in recurrent RL, highlighting both theoretical and empirical deficiencies. We leverage the properties of memory monoids to propose a batching method that improves sample efficiency, increases the return, and simplifies the implementation of recurrent loss functions in RL.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)やトランスフォーマー(Transformer)といったメモリモデルは、トラジェクトリを潜在マルコフ状態にマッピングすることで、部分的に観測可能なマルコフ決定プロセス(POMDP)に対処する。
特にリニアリカレントモデルと呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにうまくスケールしない。
新たなメモリモノイドフレームワークを用いることで,既存のモデルを再設計することが可能になる。
リカレントRLにおけるバッチ処理に対する従来のアプローチを再考し、理論的および経験的欠陥の両方を強調した。
メモリモノイドの特性を利用して、サンプル効率を改善し、リターンを高め、RLにおける繰り返し損失関数の実装を単純化するバッチ化手法を提案する。
関連論文リスト
- Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文 参考訳(メタデータ) (2024-07-17T08:21:06Z) - Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization [18.24882084542254]
本稿では,この誤差を90%以上削減する再構成手法を提案する。
キャリブレーションデータを自己生成する戦略は、再構築と一般化のトレードオフを軽減することができる。
論文 参考訳(メタデータ) (2024-06-21T05:13:34Z) - Rethinking Model Re-Basin and Linear Mode Connectivity [1.1510009152620668]
我々は再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化に重要な役割を果たしていることを明らかにする。
統合モデルでは, 活性化崩壊とマグニチュード崩壊の問題に悩まされている。
本稿では,リベースとプルーニングを統一する新たな視点を提案し,軽量で効果的なポストプルーニング手法を導出する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - ResMem: Learn what you can and memorize the rest [79.19649788662511]
本稿では,既存の予測モデルを拡張するための残差記憶アルゴリズム(ResMem)を提案する。
構築によって、ResMemはトレーニングラベルを明示的に記憶することができる。
ResMemは、元の予測モデルのテストセットの一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2023-02-03T07:12:55Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [55.28436972267793]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。