論文の概要: Block Contextual MDPs for Continual Learning
- arxiv url: http://arxiv.org/abs/2110.06972v1
- Date: Wed, 13 Oct 2021 18:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 11:26:56.824619
- Title: Block Contextual MDPs for Continual Learning
- Title(参考訳): 連続学習のためのブロックコンテキストMDP
- Authors: Shagun Sodhani, Franziska Meier, Joelle Pineau, Amy Zhang
- Abstract要約: 強化学習では、環境力学が静止していると仮定される。
タスクの列は非定常性の別の源である。
このフレームワークは、非定常性とリッチな観測設定の両方を扱うためにRLアルゴリズムに挑戦する。
より現実的なBC-MDP設定によってもたらされる課題に対処する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 45.32689830424252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), when defining a Markov Decision Process
(MDP), the environment dynamics is implicitly assumed to be stationary. This
assumption of stationarity, while simplifying, can be unrealistic in many
scenarios. In the continual reinforcement learning scenario, the sequence of
tasks is another source of nonstationarity. In this work, we propose to examine
this continual reinforcement learning setting through the block contextual MDP
(BC-MDP) framework, which enables us to relax the assumption of stationarity.
This framework challenges RL algorithms to handle both nonstationarity and rich
observation settings and, by additionally leveraging smoothness properties,
enables us to study generalization bounds for this setting. Finally, we take
inspiration from adaptive control to propose a novel algorithm that addresses
the challenges introduced by this more realistic BC-MDP setting, allows for
zero-shot adaptation at evaluation time, and achieves strong performance on
several nonstationary environments.
- Abstract(参考訳): 強化学習(RL)において、マルコフ決定過程(MDP)を定義するとき、環境力学は暗黙的に定常であると仮定される。
この定常性の仮定は単純化されるが、多くのシナリオでは非現実的である。
連続的な強化学習シナリオでは、タスクのシーケンスが非定常性の源である。
本研究では,ブロックコンテキストMDP(BC-MDP)フレームワークを用いて,この連続的な強化学習環境について検討し,定常性の仮定を緩和する。
このフレームワークは、非定常性とリッチな観測設定の両方を扱うrlアルゴリズムに挑戦し、さらに滑らかさプロパティを活用することで、この設定の一般化境界を研究できる。
最後に、適応制御からインスピレーションを得て、このより現実的なBC-MDP設定によってもたらされる課題に対処し、評価時のゼロショット適応を可能にし、複数の非定常環境において高い性能を達成する新しいアルゴリズムを提案する。
関連論文リスト
- Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。