論文の概要: Partially Observable Reinforcement Learning with Memory Traces
- arxiv url: http://arxiv.org/abs/2503.15200v1
- Date: Wed, 19 Mar 2025 13:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:41.658474
- Title: Partially Observable Reinforcement Learning with Memory Traces
- Title(参考訳): メモリトレースを用いた部分観測型強化学習
- Authors: Onno Eberhard, Michael Muehlebach, Claire Vernade,
- Abstract要約: 指数移動平均の形で観測の歴史をコンパクトに表現するメモリトレースを導入する。
オフラインのオンライン評価の問題に対して,サンプルの複雑性境界を証明した。
特定の環境では、メモリトレースによる学習の方がはるかに効率が良いことが実証された。
- 参考スコア(独自算出の注目度): 11.56175346731332
- License:
- Abstract: Partially observable environments present a considerable computational challenge in reinforcement learning due to the need to consider long histories. Learning with a finite window of observations quickly becomes intractable as the window length grows. In this work, we introduce memory traces. Inspired by eligibility traces, these are compact representations of the history of observations in the form of exponential moving averages. We prove sample complexity bounds for the problem of offline on-policy evaluation that quantify the value errors achieved with memory traces for the class of Lipschitz continuous value estimates. We establish a close connection to the window approach, and demonstrate that, in certain environments, learning with memory traces is significantly more sample efficient. Finally, we underline the effectiveness of memory traces empirically in online reinforcement learning experiments for both value prediction and control.
- Abstract(参考訳): 部分的に観察可能な環境は、長い歴史を考える必要があるため、強化学習においてかなりの計算上の課題をもたらす。
有限の観測窓を持つ学習は、窓の長さが大きくなるにつれて急速に難易度が増す。
本稿では,メモリトレースについて紹介する。
可視性トレースにインスパイアされたこれらは、指数移動平均の形で観測の歴史をコンパクトに表現するものである。
リプシッツ連続値推定クラスのメモリトレースで達成された値誤差を定量化するオフラインのオンライン評価問題に対して、サンプル複雑性境界を証明した。
ウィンドウアプローチとの密接な関係を確立し、特定の環境では、メモリトレースによる学習の方がはるかに効率の良いことを実証する。
最後に、オンライン強化学習実験において、メモリトレースの有効性を実証的に評価し、値予測と制御の両立を図った。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Learning Associative Memories with Gradient Descent [21.182801606213495]
この研究は、トークン埋め込みの外部積を格納する1つの連想メモリモジュールのトレーニングダイナミクスに焦点を当てている。
相関埋め込みによるトークン周波数とメモリ干渉の不均衡が過渡的状態を引き起こすことを示す。
論文 参考訳(メタデータ) (2024-02-28T21:47:30Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - Sequential Learning Of Neural Networks for Prequential MDL [18.475866691786695]
ニューラルネットワークを用いた画像分類データセットの事前記述長の計算手法を評価する。
計算コストを考慮すると、リハーサルによるオンライン学習は好成績であることがわかった。
本稿では,画像分類データセットの集合に対する記述長について述べる。
論文 参考訳(メタデータ) (2022-10-14T16:30:23Z) - Contrastive Learning with Boosted Memorization [36.957895270908324]
自己教師付き学習は、視覚的およびテキスト的データの表現学習において大きな成功を収めた。
近年の自己指導型長期学習の試行は、損失視点やモデル視点の再バランスによって行われる。
本稿では,ラベルを意識しないコンテキストにおける長期学習を強化するために,新しいBCL法を提案する。
論文 参考訳(メタデータ) (2022-05-25T11:54:22Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Consistent Representation Learning for Continual Relation Extraction [18.694012937149495]
関係埋め込みの安定性を維持する一貫した表現学習法を提案する。
我々の手法は最先端のベースラインを著しく上回り、不均衡なデータセットに強い堅牢性をもたらす。
論文 参考訳(メタデータ) (2022-03-05T12:16:34Z) - Learning Memory-Dependent Continuous Control from Demonstrations [13.063093054280948]
本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアに基づいて構築する。
いくつかのメモリ・クリティカルな連続制御タスクを含む実験は、環境との相互作用を著しく減少させる。
このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。
論文 参考訳(メタデータ) (2021-02-18T08:13:42Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。