論文の概要: Continual Reinforcement Learning with Multi-Timescale Replay
- arxiv url: http://arxiv.org/abs/2004.07530v1
- Date: Thu, 16 Apr 2020 08:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 20:42:23.873799
- Title: Continual Reinforcement Learning with Multi-Timescale Replay
- Title(参考訳): マルチタイムリプレイによる連続強化学習
- Authors: Christos Kaplanis, Claudia Clopath, and Murray Shanahan
- Abstract要約: RLエージェントの連続学習を改善するために,マルチタイム・リプレイ(MTR)バッファを提案する。
基本MTRバッファは、異なる時間スケールで経験を蓄積するサブバッファのカスケードを含む。
- 参考スコア(独自算出の注目度): 11.594185205173659
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a multi-timescale replay (MTR) buffer for improving
continual learning in RL agents faced with environments that are changing
continuously over time at timescales that are unknown to the agent. The basic
MTR buffer comprises a cascade of sub-buffers that accumulate experiences at
different timescales, enabling the agent to improve the trade-off between
adaptation to new data and retention of old knowledge. We also combine the MTR
framework with invariant risk minimization, with the idea of encouraging the
agent to learn a policy that is robust across the various environments it
encounters over time. The MTR methods are evaluated in three different
continual learning settings on two continuous control tasks and, in many cases,
show improvement over the baselines.
- Abstract(参考訳): 本稿では,エージェントに未知の時間スケールで連続的に変化する環境に直面するRLエージェントの連続学習を改善するために,マルチ・タイムスケール・リプレイ(MTR)バッファを提案する。
基本MTRバッファは、異なる時間スケールで経験を蓄積するサブバッファのカスケードを含み、エージェントは新しいデータへの適応と古い知識の保持の間のトレードオフを改善する。
MTRフレームワークを不変リスク最小化と組み合わせることで、エージェントが時間とともに遭遇するさまざまな環境において堅牢なポリシーを学ぶことを奨励する。
MTR法は2つの連続制御タスクにおいて3つの連続学習条件で評価され、多くの場合、ベースラインよりも改善されている。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Non-Stationary Policy Learning for Multi-Timescale Multi-Agent
Reinforcement Learning [9.808555135836022]
マルチタイムスケールのマルチエージェント強化学習では、エージェントは異なる時間スケールで相互作用する。
マルチスケールMARLのための非定常ポリシーを学習するための簡単なフレームワークを提案する。
グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。
論文 参考訳(メタデータ) (2023-07-17T19:25:46Z) - MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization [12.473095790918347]
マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
論文 参考訳(メタデータ) (2023-02-21T03:11:21Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Efficient Distributed Framework for Collaborative Multi-Agent
Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。
不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。
本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文 参考訳(メタデータ) (2022-05-11T03:12:49Z) - Continual Learning In Environments With Polynomial Mixing Times [13.533984338434106]
連続的強化学習における混合時間の影響について検討した。
平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2021-12-13T23:41:56Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。