論文の概要: More for Less: Safe Policy Improvement With Stronger Performance
Guarantees
- arxiv url: http://arxiv.org/abs/2305.07958v1
- Date: Sat, 13 May 2023 16:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:40:46.314695
- Title: More for Less: Safe Policy Improvement With Stronger Performance
Guarantees
- Title(参考訳): more for less: より強力なパフォーマンス保証による安全なポリシー改善
- Authors: Patrick Wienh\"oft, Marnix Suilen, Thiago D. Sim\~ao, Clemens
Dubslaff, Christel Baier, Nils Jansen
- Abstract要約: 安全な政策改善(SPI)問題は、サンプルデータが生成された行動ポリシーの性能を改善することを目的としている。
本稿では,SPI問題に対する新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.507789621505201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an offline reinforcement learning setting, the safe policy improvement
(SPI) problem aims to improve the performance of a behavior policy according to
which sample data has been generated. State-of-the-art approaches to SPI
require a high number of samples to provide practical probabilistic guarantees
on the improved policy's performance. We present a novel approach to the SPI
problem that provides the means to require less data for such guarantees.
Specifically, to prove the correctness of these guarantees, we devise implicit
transformations on the data set and the underlying environment model that serve
as theoretical foundations to derive tighter improvement bounds for SPI. Our
empirical evaluation, using the well-established SPI with baseline
bootstrapping (SPIBB) algorithm, on standard benchmarks shows that our method
indeed significantly reduces the sample complexity of the SPIBB algorithm.
- Abstract(参考訳): オフラインの強化学習環境では、安全なポリシー改善(SPI)問題は、サンプルデータが生成された行動ポリシーの性能を改善することを目的としている。
SPIに対する最先端のアプローチは、改善されたポリシーの性能に関する実用的な確率的保証を提供するために、多数のサンプルを必要とする。
このような保証のために少ないデータを必要とする手段を提供するspi問題に対して,新たなアプローチを提案する。
具体的には、これらの保証の正しさを証明するために、SPIのより厳密な改善境界を導出するための理論的基礎となるデータセットと基礎となる環境モデルに暗黙的な変換を考案する。
ベースラインブートストラップ法(SPIBB)アルゴリズムを標準ベンチマークで確立したSPIを用いて,本手法がSPIBBアルゴリズムのサンプリング複雑性を著しく低減することを示す。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Towards the Flatter Landscape and Better Generalization in Federated
Learning under Client-level Differential Privacy [67.33715954653098]
本稿では,DPの負の影響を軽減するために勾配摂動を利用するDP-FedSAMという新しいDPFLアルゴリズムを提案する。
具体的には、DP-FedSAM は Sharpness Aware of Minimization (SAM) を統合し、安定性と重みのある局所平坦度モデルを生成する。
より優れた性能を保ちながら、さらにマグニチュードランダムノイズを低減するために、ローカル更新スペーシフィケーション手法を用いてDP-FedSAM-$top_k$を提案する。
論文 参考訳(メタデータ) (2023-05-01T15:19:09Z) - Safe Policy Improvement for POMDPs via Finite-State Controllers [6.022036788651133]
部分的に観測可能なマルコフ決定プロセス(POMDP)のための安全政策改善(SPI)について検討する。
SPIメソッドは、モデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
論文 参考訳(メタデータ) (2023-01-12T11:22:54Z) - MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer
Sampling [2.501153467354696]
経験リプレイバッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。
Q値推定に不確実性は含まない。
本稿では,探索・探索トレードオフを利用した新しいサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-24T18:55:41Z) - Safe Policy Improvement Approaches and their Limitations [2.596059386610301]
我々は,各文献からの各種安全政策改善(SPI)アプローチを,状態-作用ペアの不確実性を活用した2つのグループに分類する。
彼らの主張が確実に安全であるという主張は成り立たないことを示す。
我々はAdv.-Soft-SPIBBアルゴリズムの適応を開発し、それらが確実に安全であることを示す。
論文 参考訳(メタデータ) (2022-08-01T10:13:03Z) - Safe Policy Improvement Approaches on Discrete Markov Decision Processes [2.596059386610301]
安全政策改善(SPI)は、学習方針が与えられた基準方針とほぼ同等であることを示すことを目的としている。
有限マルコフ決定過程(MDP)上で確実に安全な新しいアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-01-28T15:16:54Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。