論文の概要: MetaCURL: Non-stationary Concave Utility Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.19807v1
- Date: Thu, 30 May 2024 08:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:28:56.568998
- Title: MetaCURL: Non-stationary Concave Utility Reinforcement Learning
- Title(参考訳): MetaCURL:非定常凹型ユーティリティ強化学習
- Authors: Bianca Marin Moreno, Margaux Brégère, Pierre Gaillard, Nadia Oudjane,
- Abstract要約: 非定常環境におけるエピソードループのないマルコフ決定過程におけるオンライン学習について検討する。
本稿では,非定常MDPのための最初のCURLアルゴリズムであるMetaCURLを紹介する。
- 参考スコア(独自算出の注目度): 8.230945193151399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore online learning in episodic loop-free Markov decision processes on non-stationary environments (changing losses and probability transitions). Our focus is on the Concave Utility Reinforcement Learning problem (CURL), an extension of classical RL for handling convex performance criteria in state-action distributions induced by agent policies. While various machine learning problems can be written as CURL, its non-linearity invalidates traditional Bellman equations. Despite recent solutions to classical CURL, none address non-stationary MDPs. This paper introduces MetaCURL, the first CURL algorithm for non-stationary MDPs. It employs a meta-algorithm running multiple black-box algorithms instances over different intervals, aggregating outputs via a sleeping expert framework. The key hurdle is partial information due to MDP uncertainty. Under partial information on the probability transitions (uncertainty and non-stationarity coming only from external noise, independent of agent state-action pairs), we achieve optimal dynamic regret without prior knowledge of MDP changes. Unlike approaches for RL, MetaCURL handles full adversarial losses, not just stochastic ones. We believe our approach for managing non-stationarity with experts can be of interest to the RL community.
- Abstract(参考訳): 非定常環境(損失の変化と確率遷移)におけるエピソードループのないマルコフ決定過程におけるオンライン学習について検討する。
エージェントポリシーによって誘導される状態-作用分布における凸性能基準を扱うための古典的RLの拡張であるCURL(Concave Utility Reinforcement Learning problem)に注目した。
様々な機械学習問題はCURLと書くことができるが、その非線形性は従来のベルマン方程式を無効にする。
近年の古典的CURLのソリューションにもかかわらず、非定常MDPには対応していない。
本稿では,非定常MDPのための最初のCURLアルゴリズムであるMetaCURLを紹介する。
複数のブラックボックスアルゴリズムインスタンスを異なる間隔で実行し、睡眠専門家フレームワークを通じてアウトプットを集約するメタアルゴリズムを採用している。
鍵となるハードルは、MDPの不確実性による部分的な情報である。
確率遷移に関する部分的な情報(外部ノイズのみから生じる不確かさと非定常性)の下では、MDPの変化を事前に知ることなく最適な動的後悔を実現する。
RLのアプローチとは異なり、MetaCURLは確率的なアプローチではなく、完全な敵の損失を処理する。
専門家と非定常性を管理するための我々のアプローチは、RLコミュニティにとって関心のあるものだと考えています。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory [17.62475351325657]
凹凸ユーティリティによる逆強化学習問題を考察する。
CURLは古典的なベルマン方程式を無効にするため、標準IRLの結果のほとんどは一般には適用されない。
平均場ゲームサブクラスにおける逆ゲーム理論問題と等価であることを示すことによって,I-CURLに対する実現可能な報酬の新たな定義を提案する。
論文 参考訳(メタデータ) (2024-05-29T12:07:17Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Efficient Model-Based Concave Utility Reinforcement Learning through
Greedy Mirror Descent [0.0]
Concave Utility Reinforcement Learning problem(英語版)は古典的なベルマン方程式を無効化する。
有限地平面マルコフ決定過程におけるCURLの新しいアルゴリズムであるMD-CURLを紹介する。
本稿では,MD-CURLをオンライン・エピソードベース・セッティングに適応させる新しい手法であるGreedy MD-CURLを提案する。
論文 参考訳(メタデータ) (2023-11-30T08:32:50Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating
The Worst Kernel [46.373217780462944]
EWoKはRMDPを解くための新しいオンライン手法で、Kernelを見積もって堅牢なポリシーを学ぶ。
EWoKは、学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。
簡単なカートポールから高次元DeepMindコントロールスイート環境にまたがる実験により,EWoKの有効性と適用性を示した。
論文 参考訳(メタデータ) (2023-06-09T12:45:41Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。
CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-03-25T11:42:02Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Learning and Solving Regular Decision Processes [15.533842336139067]
RDP(Regular Decision Processs)は、非マルコフ力学と報酬を用いてMDPを拡張するモデルである。
本研究では,履歴クラスタリングによる自動学習技術を活用して,MCTSを適応させることで,Mealyマシンを学習し,それを解決する。
論文 参考訳(メタデータ) (2020-03-02T16:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。