論文の概要: Post-Hoc Robustness for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.03521v1
- Date: Tue, 02 Jun 2026 11:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.975476
- Title: Post-Hoc Robustness for Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習のためのポストホックロバストネス
- Authors: Siemen Herremans, Ali Anwar, Siegfried Mercelis,
- Abstract要約: 本研究は, 深部RL剤の加熱後強固化を推察時に導入する。
目標は、ニューラルネットワークのさらなるトレーニングを必要とせずに、堅牢性を改善することだ。
- 参考スコア(独自算出の注目度): 1.4072254177584387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the real-world applicability of reinforcement learning (RL), the field of adversarially robust RL studies how to train agents under adversarial environment perturbations. In this setting, a protagonist agent optimizes a policy under environmental perturbations from an adversary, resulting in a zero-sum Markov game. When adversarially robust RL is combined with model-based RL, the adversary can target a learned transition model instead of the training environment. Extending this idea, this work introduces post-hoc robustification of deep RL agents at inference time. By using the learned model in combination with a trained nominal policy, our approach performs a robust policy improvement step. The goal is to improve robustness without any additional training of neural networks. Specifically, we utilize model-predictive control under adversarial rollouts, which are approximated via projected gradient descent within a bounded uncertainty set. Furthermore, these offline rollouts are performed while considering and mitigating out-of-distribution issues. The proposed methodology is validated by demonstrating significant improvements in robustness when the algorithm is evaluated in perturbed Gymnasium MuJoCo environments, while considering the computational limitations of the post-hoc inference setting.
- Abstract(参考訳): 強化学習(RL)の現実的適用性を改善するため,RLの分野は,対人的環境摂動下でのエージェントの訓練方法を研究する。
この設定では、プロタゴニストエージェントは、敵からの環境摂動の下でポリシーを最適化し、ゼロサムマルコフゲームを生成する。
逆に頑健なRLとモデルベースRLが組み合わされた場合、学習環境の代わりに学習された遷移モデルをターゲットにすることができる。
この考え方を拡張して、この研究は推論時に深部RLエージェントのポストホック強固化を導入する。
学習したモデルと訓練済みの専門的な方針を組み合わせることで、我々のアプローチは堅牢な政策改善のステップを実行します。
目標は、ニューラルネットワークのさらなるトレーニングを必要とせずに、堅牢性を改善することだ。
具体的には,有界不確実性集合内の射影勾配降下によって近似される対向ロールアウトのモデル予測制御を利用する。
さらに、これらのオフラインロールアウトは、アウト・オブ・ディストリビューション問題を考慮し緩和しながら行われる。
提案手法は, 摂動型ギムナシウムMuJoCo環境下でのアルゴリズム評価において, ポストホック推論の計算限界を考慮した場合のロバスト性を大幅に向上させることによって検証された。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Efficiently Learning Robust Torque-based Locomotion Through Reinforcement with Model-Based Supervision [14.246416873754905]
モデルに基づく二足歩行と残留強化学習を統合した制御フレームワークを提案する。
提案手法は, ランダム化条件におけるロバスト性の向上と一般化を実証する。
論文 参考訳(メタデータ) (2026-01-22T16:56:52Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:37:08Z) - RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning [11.183124892686239]
本稿では,モデルベースオフラインRLの新しいアプローチであるRobust Adversarial Model-Based Offline RL(RAMBO)を提案する。
保守性を達成するため、敵環境モデルに対して2プレイヤーゼロ和ゲームとして問題を定式化する。
我々は,オフラインRLベンチマークに対する我々のアプローチを評価し,我々のアプローチが技術性能の状態を達成できることを実証した。
論文 参考訳(メタデータ) (2022-04-26T20:42:14Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。