論文の概要: DARLING: Detection Augmented Reinforcement Learning with Non-Stationary Guarantees
- arxiv url: http://arxiv.org/abs/2604.16684v1
- Date: Fri, 17 Apr 2026 20:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.12913
- Title: DARLING: Detection Augmented Reinforcement Learning with Non-Stationary Guarantees
- Title(参考訳): DARling:非定常保証者による強化強化学習の検出
- Authors: Argyrios Gerogiannis, Yu-Han Huang, Venugopal V. Veeravalli,
- Abstract要約: 非定常有限水平マルコフ決定過程(MDP)におけるモデルフリー強化学習(RL)について,非定常性に関する事前知識を伴わない検討を行った。
本稿では,PS-RL 用モジュールラッパーである検出強化強化学習 (DARling) を提案する。
- 参考スコア(独自算出の注目度): 19.37741037983129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study model-free reinforcement learning (RL) in non-stationary finite-horizon episodic Markov decision processes (MDPs) without prior knowledge of the non-stationarity. We focus on the piecewise-stationary (PS) setting, where both the reward and transition dynamics can change an arbitrary number of times. We propose Detection Augmented Reinforcement Learning (DARLING), a modular wrapper for PS-RL that applies to both tabular and linear MDPs, without knowledge of the changes. Under certain change-point separation and reachability conditions, DARLING improves the best available dynamic regret bounds in both settings and yields strong empirical performance. We further establish the first minimax lower bounds for PS-RL in tabular and linear MDPs, showing that DARLING is the first nearly optimal algorithm. Experiments on standard benchmarks demonstrate that DARLING consistently surpasses the state-of-the-art methods across diverse non-stationary scenarios.
- Abstract(参考訳): 非定常有限水平マルコフ決定過程 (MDP) におけるモデルフリー強化学習 (RL) について, 非定常性に関する事前知識なく検討した。
我々は、報酬と遷移のダイナミクスが任意の回数を変えることができるPS( piecewise-stationary)設定に焦点を当てる。
本稿では,PS-RL 用モジュールラッパーである検出強化強化学習 (DARling) を提案する。
特定の変更点分離と到達性条件の下では、DARlingは、両方の設定で最高の動的後悔境界を改善し、強力な経験的性能を得る。
さらに,PS-RL を表型および線形 MDP で最小値下限に設定し,DARling が最初の近似アルゴリズムであることを示す。
標準ベンチマークの実験では、DARlingは様々な非定常シナリオにまたがる最先端の手法を一貫して上回っている。
関連論文リスト
- Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Reinforcement Learning for Non-Stationary Markov Decision Processes: The
Blessing of (More) Optimism [25.20231604057821]
非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)について考察する。
まず, 信頼性拡張学習(SWUCRL2-CW) アルゴリズムを用いて, Sliding Window Up-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) を提案する。
SWUCRL2-CWアルゴリズムを適応的に調整し,同じダイナミックなリセット境界を実現するBORLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-24T15:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。