Fugu-MT 論文翻訳(概要): Revisiting Recurrent Reinforcement Learning with Memory Monoids

論文の概要: Revisiting Recurrent Reinforcement Learning with Memory Monoids

arxiv url: http://arxiv.org/abs/2402.09900v1
Date: Thu, 15 Feb 2024 11:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 15:50:16.896722
Title: Revisiting Recurrent Reinforcement Learning with Memory Monoids
Title（参考訳）: メモリモノイドを用いた繰り返し強化学習の再考
Authors: Steven Morad, Chris Lu, Ryan Kortvelesy, Stephan Liwicki, Jakob Foerster, Amanda Prorok
Abstract要約: RLでは、RNNやトランスフォーマーなどのメモリモデルは、トラジェクトリを潜在マルコフ状態にマッピングすることで、部分的に観測可能なマルコフ決定プロセス(POMDP)に対処する。これらのモデルの更新がモノイドであることに気付き、新しいメモリモノイドフレームワークを正式に定義しました。本稿では, RLにおける再帰損失関数の実装を簡略化し, サンプル効率を改善し, 戻り値を増加させる手法を提案する。
参考スコア（独自算出の注目度）: 11.86945491923298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In RL, memory models such as RNNs and transformers address Partially Observable Markov Decision Processes (POMDPs) by mapping trajectories to latent Markov states. Neither model scales particularly well to long sequences, especially compared to an emerging class of memory models sometimes called linear recurrent models. We discover that the recurrent update of these models is a monoid, leading us to formally define a novel memory monoid framework. We revisit the traditional approach to batching in recurrent RL, highlighting both theoretical and empirical deficiencies. Leveraging the properties of memory monoids, we propose a new batching method that improves sample efficiency, increases the return, and simplifies the implementation of recurrent loss functions in RL.
Abstract（参考訳）: RLでは、RNNやトランスフォーマーのようなメモリモデルは、軌道を潜在マルコフ状態にマッピングすることで部分的に観測可能なマルコフ決定プロセス(POMDP)に対処する。特にリニアリカレントモデルと呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにスケールしない。これらのモデルの更新頻度が monoid であることに気付き、新しいメモリ monoid フレームワークを正式に定義することにしました。リカレントrlのバッチ化に対する従来のアプローチを再検討し、理論的および経験的欠陥を強調する。メモリモノイドの特性を活用することで、サンプル効率を改善し、リターンを高め、RLにおける繰り返し損失関数の実装を簡略化する新しいバッチ化手法を提案する。

関連論文リスト

Learning a Generative Meta-Model of LLM Activations [75.30161960337892]
ネットワークの内部状態の分布を学習する"メタモデル"を作成します。ステアリング介入前に学んだメタモデルを適用することで、損失が減少するにつれて、流速が向上する。これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
論文参考訳（メタデータ） (2026-02-06T18:59:56Z)
Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs [51.29260537017623]
大規模言語モデル (LLM) は計算化学の汎用基盤モデルとして登場しつつある。これらのモデルは、しばしば往復一貫性を欠いている。本稿では,その一貫性を向上させるためにモデルをトレーニングする新しいフレームワークであるRound-Trip Reinforcement Learning(RTRL)を紹介する。
論文参考訳（メタデータ） (2025-10-01T23:58:58Z)
Bayesian sparsification for deep neural networks with Bayesian model reduction [0.6144680854063939]
我々は,モデルウェイトを刈り取るためのより効率的な代替手段として,ベイズモデルリダクション(BMR)の使用を提唱する。 BMRは、単純な(非階層的な)生成モデルの下での後方推定に基づいて、余剰モデル重みのポストホック除去を可能にする。我々は、LeNetのような古典的なネットワークから、VisionやTransformers-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性について説明する。
論文参考訳（メタデータ） (2023-09-21T14:10:47Z)
ResMem: Learn what you can and memorize the rest [79.19649788662511]
本稿では,既存の予測モデルを拡張するための残差記憶アルゴリズム(ResMem)を提案する。構築によって、ResMemはトレーニングラベルを明示的に記憶することができる。 ResMemは、元の予測モデルのテストセットの一般化を一貫して改善することを示す。
論文参考訳（メタデータ） (2023-02-03T07:12:55Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
State-driven Implicit Modeling for Sparsity and Robustness in Neural Networks [3.604879434384177]
SIM(State-driven Implicit Modeling)と呼ばれる暗黙的モデルをトレーニングするための新しいアプローチを提案する。 SIMは内部の状態と出力をベースラインモデルと一致させ、コストのかかる後方計算を回避する。本稿では,データセット上でトレーニングされたベースラインモデルの空間性とロバスト性を大幅に向上するためにSIMアプローチを適用する方法を示す。
論文参考訳（メタデータ） (2022-09-19T23:58:48Z)
Towards performant and reliable undersampled MR reconstruction via diffusion model sampling [67.73698021297022]
DiffuseReconは拡散モデルに基づく新しいMR再構成法である。観測された信号に基づいて生成過程を導出する。特定の加速因子に関する追加の訓練は必要としない。
論文参考訳（メタデータ） (2022-03-08T02:25:38Z)
Measuring and Reducing Model Update Regression in Structured Prediction for NLP [31.86240946966003]
後方互換性は、新しいモデルが前者によって正しく処理されたケースに回帰しないことを要求する。本研究は、構造化予測タスクにおける更新回帰をモデル化する。本稿では,構造化出力の特性を考慮し,単純かつ効果的なバックワード・コングルエント・リグレード(BCR)を提案する。
論文参考訳（メタデータ） (2022-02-07T07:04:54Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。