論文の概要: Deep SPI: Safe Policy Improvement via World Models
- arxiv url: http://arxiv.org/abs/2510.12312v1
- Date: Tue, 14 Oct 2025 09:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.265501
- Title: Deep SPI: Safe Policy Improvement via World Models
- Title(参考訳): ディープSPI:世界モデルによる安全政策の改善
- Authors: Florent Delgrange, Raphael Avalos, Willem Röpke,
- Abstract要約: 政策更新を適切に定義された地区に制限することで、単調な改善と収束が保証されることを示す理論的枠組みを開発する。
この分析は、遷移と報酬予測損失を表現品質に関連付け、オフラインのRL文献から古典的なSPI定理の「深い」類似点を得る。
我々は、局所的な移行と報酬損失を規則化されたポリシー更新とを結合する、原則化されたオンライン政治アルゴリズムであるDeepSPIを紹介する。
- 参考スコア(独自算出の注目度): 2.985859733530328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe policy improvement (SPI) offers theoretical control over policy updates, yet existing guarantees largely concern offline, tabular reinforcement learning (RL). We study SPI in general online settings, when combined with world model and representation learning. We develop a theoretical framework showing that restricting policy updates to a well-defined neighborhood of the current policy ensures monotonic improvement and convergence. This analysis links transition and reward prediction losses to representation quality, yielding online, "deep" analogues of classical SPI theorems from the offline RL literature. Building on these results, we introduce DeepSPI, a principled on-policy algorithm that couples local transition and reward losses with regularised policy updates. On the ALE-57 benchmark, DeepSPI matches or exceeds strong baselines, including PPO and DeepMDPs, while retaining theoretical guarantees.
- Abstract(参考訳): 安全政策改善(SPI)は、ポリシー更新を理論的に制御するが、既存の保証は、主にオフラインで表型強化学習(RL)を懸念している。
我々は、世界モデルと表現学習を組み合わせることで、SPIを一般的なオンライン環境で研究する。
我々は,政策更新を現在の政策の明確に定義された近傍に制限することで,単調な改善と収束が保証されることを示す理論的枠組みを開発する。
この分析は、遷移と報酬予測損失を表現品質に関連付け、オフラインのRL文献から古典的なSPI定理の「深い」類似点を得る。
これらの結果に基づいて、局所的な移行と報酬損失を規則化されたポリシー更新とを結合する、原則化された政治アルゴリズムであるDeepSPIを導入する。
ALE-57ベンチマークでは、DeepSPIは理論上の保証を維持しながら、PPOやDeepMDPを含む強力なベースラインと一致または超える。
関連論文リスト
- Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - PPO in the Fisher-Rao geometry [0.0]
PPO(Proximal Policy Optimization)は、強化学習のアルゴリズムとして広く採用されている。
その人気にもかかわらず、PPOは政策改善と収束に関する正式な理論的保証を欠いている。
本稿では,フィッシャー・ラオ幾何におけるより強いサロゲートを導出し,新しい変種であるフィッシャー・ラオPPO(FR-PPO)を導出する。
論文 参考訳(メタデータ) (2025-06-04T09:23:27Z) - CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models [11.295986905174635]
ルールベース強化学習(RL)は、ルールベース報酬を用いた言語モデル(LM)の推論能力を改善した。
既存のRLメソッドは、大きなポリシー更新と不適切なクリッピングがトレーニングの崩壊につながるような、トレーニングの不安定さに悩まされることが多い。
本稿では,政策学習の安定化を目的とした新しいアルゴリズムCPGDを提案する。
論文 参考訳(メタデータ) (2025-05-18T17:44:53Z) - Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning [22.333460316347264]
本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-07T09:30:35Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。