Fugu-MT 論文翻訳(概要): Towards Theoretical Understanding of Data-Driven Policy Refinement

論文の概要: Towards Theoretical Understanding of Data-Driven Policy Refinement

arxiv url: http://arxiv.org/abs/2305.06796v2
Date: Mon, 15 May 2023 13:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 11:05:33.585749
Title: Towards Theoretical Understanding of Data-Driven Policy Refinement
Title（参考訳）: データ駆動型政策リファインメントの理論的理解に向けて
Authors: Ali Baheri
Abstract要約: 本稿では、特に安全クリティカルなアプリケーションのために設計された強化学習におけるデータ駆動型ポリシー改善のアプローチを提案する。我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。我々は、収束性、ロバスト性境界、一般化誤差、モデルミスマッチに対するレジリエンスなど、我々のアプローチの重要な理論的性質を解明する一連の定理を提示する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an approach for data-driven policy refinement in reinforcement learning, specifically designed for safety-critical applications. Our methodology leverages the strengths of data-driven optimization and reinforcement learning to enhance policy safety and optimality through iterative refinement. Our principal contribution lies in the mathematical formulation of this data-driven policy refinement concept. This framework systematically improves reinforcement learning policies by learning from counterexamples identified during data-driven verification. Furthermore, we present a series of theorems elucidating key theoretical properties of our approach, including convergence, robustness bounds, generalization error, and resilience to model mismatch. These results not only validate the effectiveness of our methodology but also contribute to a deeper understanding of its behavior in different environments and scenarios.
Abstract（参考訳）: 本稿では,安全クリティカルなアプリケーション用に特別に設計された強化学習におけるデータ駆動型政策改善手法を提案する。本手法は,データ駆動最適化と強化学習の強みを活かし,反復的洗練による政策の安全性と最適性を高める。我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。このフレームワークは、データ駆動検証中に特定された反例から学習することで、強化学習ポリシーを体系的に改善する。さらに, 収束, 頑健性境界, 一般化誤差, モデルミスマッチに対するレジリエンスなど, 本手法の重要な理論特性を明らかにする一連の定理を提案する。これらの結果は,方法論の有効性を検証するだけでなく,異なる環境やシナリオにおける行動のより深い理解にも寄与する。

関連論文リスト

SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本研究では,モデルフリーでエピソードな環境において,新しいタスク固有ポリシーの安全性特性に違反する確率に制約を課す理論的結果を示す。この境界は、時間的に拡張された性質(安全性の他に)や堅牢な制御問題にも適用できる。本研究は,このトレードオフを実証し,経験的違反率から得られる理論的境界と後続境界とを比較した実験結果である。
論文参考訳（メタデータ） (2025-04-08T19:09:07Z)
Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。そして、推定報酬を最適化することで最適な政策を学ぶ。
論文参考訳（メタデータ） (2025-01-14T12:33:02Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
A Unified Learn-to-Distort-Data Framework for Privacy-Utility Trade-off in Trustworthy Federated Learning [5.622065847054885]
プライバシとユーティリティの均衡をナビゲートするための原則的アプローチを提供するTextitLearn-to-Distort-Dataフレームワークを提案する。データ歪みに基づく様々なプライバシー保護機構への我々のフレームワークの適用性を実証する。
論文参考訳（メタデータ） (2024-07-05T08:15:09Z)
Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文参考訳（メタデータ） (2023-10-10T19:47:27Z)
Online Estimation and Inference for Robust Policy Evaluation in Reinforcement Learning [7.875680651592574]
本研究では,バハドゥル表現に基づくオンラインロバストな政策評価手法を開発し,推定器の限定分布を確立する。本稿では、強化学習における頑健な統計と統計的推測のギャップを埋め、より汎用的で信頼性の高い政策評価手法を提供する。
論文参考訳（メタデータ） (2023-10-04T04:57:35Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文参考訳（メタデータ） (2023-05-31T14:59:12Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文参考訳（メタデータ） (2022-01-10T23:55:04Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。