論文の概要: Provably Efficient Lifelong Reinforcement Learning with Linear Function
Approximation
- arxiv url: http://arxiv.org/abs/2206.00270v1
- Date: Wed, 1 Jun 2022 06:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 16:02:13.831282
- Title: Provably Efficient Lifelong Reinforcement Learning with Linear Function
Approximation
- Title(参考訳): リニア関数近似を用いた高効率生涯強化学習
- Authors: Sanae Amani, Lin F. Yang, Ching-An Cheng
- Abstract要約: 線形文脈マルコフ決定過程(MDP)の遺残条件における生涯強化学習(RL)について検討する。
本稿では, UCB Lifelong Value Distillation (UCBlvd) と呼ばれるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 41.460894569204065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study lifelong reinforcement learning (RL) in a regret minimization
setting of linear contextual Markov decision process (MDP), where the agent
needs to learn a multi-task policy while solving a streaming sequence of tasks.
We propose an algorithm, called UCB Lifelong Value Distillation (UCBlvd), that
provably achieves sublinear regret for any sequence of tasks, which may be
adaptively chosen based on the agent's past behaviors. Remarkably, our
algorithm uses only sublinear number of planning calls, which means that the
agent eventually learns a policy that is near optimal for multiple tasks (seen
or unseen) without the need of deliberate planning. A key to this property is a
new structural assumption that enables computation sharing across tasks during
exploration. Specifically, for $K$ task episodes of horizon $H$, our algorithm
has a regret bound $\tilde{\mathcal{O}}(\sqrt{(d^3+d^\prime d)H^4K})$ based on
$\mathcal{O}(dH\log(K))$ number of planning calls, where $d$ and $d^\prime$ are
the feature dimensions of the dynamics and rewards, respectively. This
theoretical guarantee implies that our algorithm can enable a lifelong learning
agent to accumulate experiences and learn to rapidly solve new tasks.
- Abstract(参考訳): 本稿では,リニアコンテキストマルコフ決定過程 (MDP) の最小化過程において, エージェントがタスクのストリーミングシーケンスを解きながらマルチタスクポリシーを学習する必要がある場合において, 生涯強化学習(RL)について検討する。
本稿では,UCB Lifelong Value Distillation (UCBlvd) と呼ばれるアルゴリズムを提案する。
注目すべきは、我々のアルゴリズムは計画呼び出しのサブリニア数のみを使用するため、エージェントは計画を立てる必要なしに複数のタスク(見えるか見えないか)に対してほぼ最適なポリシーを学ぶことになる。
この性質の鍵は、探索中にタスク間の計算共有を可能にする新しい構造的仮定である。
具体的には、水平線$H$のタスクエピソード$K$に対して、我々のアルゴリズムは、$\tilde{\mathcal{O}}(\sqrt{(d^3+d^\prime d)H^4K})$に対して、$\mathcal{O}(dH\log(K))$のプランニングコール数に基づいて、それぞれ$d$と$d^\prime$が動的および報酬の特徴次元である。
この理論的な保証は、アルゴリズムが生涯学習エージェントが経験を蓄積し、新しいタスクを迅速に解くことを可能にすることを意味する。
関連論文リスト
- Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation [1.8416014644193066]
ベルマン最適条件下で線形マルコフ決定過程(MDP)と線形混合MDPを学習するアルゴリズムを提案する。
線形MDPに対する我々のアルゴリズムは、$widetildemathcalO(d3/2mathrmsp(v*)sqrtT)$ over $T$タイムステップの最もよく知られた後悔の上限を達成する。
線形混合 MDP に対して、我々のアルゴリズムは、$widetildemathcalO(dcdotmathrm) の後悔境界に達する。
論文 参考訳(メタデータ) (2024-09-16T23:13:42Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Multi-task Representation Learning with Stochastic Linear Bandits [29.8208189270894]
線形バンディットタスクの設定におけるトランスファーラーニングの問題について検討する。
我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。
論文 参考訳(メタデータ) (2022-02-21T09:26:34Z) - Provable Lifelong Learning of Representations [21.440845049501778]
そこで本研究では,内部特徴表現を保守・洗練する,証明可能な生涯学習アルゴリズムを提案する。
すべてのタスクにおける任意の所望の精度に対して、表現の次元は、基礎となる表現の次元に近いままであることを示す。
論文 参考訳(メタデータ) (2021-10-27T00:41:23Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。