論文の概要: Online Episodic Convex Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.07303v1
- Date: Mon, 12 May 2025 07:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.295238
- Title: Online Episodic Convex Reinforcement Learning
- Title(参考訳): オンライン・エピソード・コンベックス強化学習
- Authors: Bianca Marin Moreno, Khaled Eldowa, Pierre Gaillard, Margaux Brégère, Nadia Oudjane,
- Abstract要約: 本研究では,凸目的関数を用いた表層的有限水平マルコフ決定過程(MDP)のオンライン学習について検討する。
本稿では,オンラインCURLに対して,遷移関数に関する事前知識を必要とせずに,ほぼ最適の後悔境界を達成できるアルゴリズムを提案する。
エージェントのポリシーによって誘導される状態-作用分布に対する目的関数の値が唯一フィードバックされるCURLのバンディットバージョンに対処する。
- 参考スコア(独自算出の注目度): 8.650735248242727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online learning in episodic finite-horizon Markov decision processes (MDPs) with convex objective functions, known as the concave utility reinforcement learning (CURL) problem. This setting generalizes RL from linear to convex losses on the state-action distribution induced by the agent's policy. The non-linearity of CURL invalidates classical Bellman equations and requires new algorithmic approaches. We introduce the first algorithm achieving near-optimal regret bounds for online CURL without any prior knowledge on the transition function. To achieve this, we use an online mirror descent algorithm with varying constraint sets and a carefully designed exploration bonus. We then address for the first time a bandit version of CURL, where the only feedback is the value of the objective function on the state-action distribution induced by the agent's policy. We achieve a sub-linear regret bound for this more challenging problem by adapting techniques from bandit convex optimization to the MDP setting.
- Abstract(参考訳): 本稿では,CURL(concave utility reinforcement learning)問題として知られる凸目的関数を用いた表層有限水平マルコフ決定過程(MDP)のオンライン学習について検討する。
この設定は、エージェントのポリシーによって誘導される状態-作用分布に対する線形から凸損失からRLを一般化する。
CURLの非線形性は、古典的なベルマン方程式を無効化し、新しいアルゴリズムアプローチを必要とする。
本稿では,オンラインCURLに対して,遷移関数に関する事前知識を必要とせずに,ほぼ最適の後悔境界を達成できるアルゴリズムを提案する。
これを実現するために,制約セットの異なるオンラインミラー降下アルゴリズムと,慎重に設計された探索ボーナスを用いる。
エージェントのポリシーによって誘導される状態-作用分布に対する目的関数の値が唯一フィードバックされるCURLのバンディットバージョンに対処する。
我々は,バンディット凸最適化からMDP設定への手法の適用により,この問題に対するサブ線形後悔を実現する。
関連論文リスト
- Minimax-optimal and Locally-adaptive Online Nonparametric Regression [10.138723409205497]
一般凸損失を伴う対向的オンライン非パラメトリック回帰について検討した。
パラメータフリーの学習アルゴリズムを提案する。
これらの概念をブースティングフレームワークに拡張する方法について論じる。
論文 参考訳(メタデータ) (2024-10-04T12:30:03Z) - Efficient Model-Based Concave Utility Reinforcement Learning through
Greedy Mirror Descent [0.0]
Concave Utility Reinforcement Learning problem(英語版)は古典的なベルマン方程式を無効化する。
有限地平面マルコフ決定過程におけるCURLの新しいアルゴリズムであるMD-CURLを紹介する。
本稿では,MD-CURLをオンライン・エピソードベース・セッティングに適応させる新しい手法であるGreedy MD-CURLを提案する。
論文 参考訳(メタデータ) (2023-11-30T08:32:50Z) - Inverse Reinforcement Learning With Constraint Recovery [3.8073142980732992]
本稿では,制約決定過程(CMDP)問題に対する新しい逆強化学習法を提案する。
グリッドワールド環境におけるアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-14T11:49:37Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator [0.8629912408966145]
リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本稿では,線形システムに着目したリスク対応制御系を学習するためのモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-22T04:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。