論文の概要: Safe Planning and Policy Optimization via World Model Learning
- arxiv url: http://arxiv.org/abs/2506.04828v1
- Date: Thu, 05 Jun 2025 09:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.641222
- Title: Safe Planning and Policy Optimization via World Model Learning
- Title(参考訳): 世界モデル学習による安全計画と政策最適化
- Authors: Artem Latyshev, Gregory Gorbov, Aleksandr I. Panov,
- Abstract要約: 実世界のシナリオにおける強化学習アプリケーションは、安全性と信頼性を優先しなければならない。
固有のモデル不正確さは、安全クリティカルな環境で破滅的な失敗を引き起こす可能性がある。
本稿では,タスク性能と安全性を協調的に最適化する新しいモデルベースRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) applications in real-world scenarios must prioritize safety and reliability, which impose strict constraints on agent behavior. Model-based RL leverages predictive world models for action planning and policy optimization, but inherent model inaccuracies can lead to catastrophic failures in safety-critical settings. We propose a novel model-based RL framework that jointly optimizes task performance and safety. To address world model errors, our method incorporates an adaptive mechanism that dynamically switches between model-based planning and direct policy execution. We resolve the objective mismatch problem of traditional model-based approaches using an implicit world model. Furthermore, our framework employs dynamic safety thresholds that adapt to the agent's evolving capabilities, consistently selecting actions that surpass safe policy suggestions in both performance and safety. Experiments demonstrate significant improvements over non-adaptive methods, showing that our approach optimizes safety and performance simultaneously rather than merely meeting minimum safety requirements. The proposed framework achieves robust performance on diverse safety-critical continuous control tasks, outperforming existing methods.
- Abstract(参考訳): 実世界のシナリオにおける強化学習(RL)アプリケーションは、エージェントの動作に厳格な制約を課す安全と信頼性を優先しなければならない。
モデルベースのRLは、行動計画とポリシー最適化のために予測的世界モデルを活用するが、固有のモデル不正確さは、安全クリティカルな設定で破滅的な失敗を引き起こす可能性がある。
本稿では,タスク性能と安全性を協調的に最適化する新しいモデルベースRLフレームワークを提案する。
ワールドモデルエラーに対処するために,モデルベース計画と直接ポリシー実行を動的に切り替える適応機構を組み込んだ。
我々は、暗黙の世界モデルを用いて、従来のモデルに基づくアプローチの客観的なミスマッチ問題を解消する。
さらに、我々のフレームワークは、エージェントの進化する能力に適応する動的安全性閾値を採用し、パフォーマンスと安全性の両方において安全なポリシー提案を超越したアクションを一貫して選択します。
実験により,最小限の安全性要件を満たすのではなく,安全性と性能を同時に最適化することを示す。
提案フレームワークは, 各種安全クリティカルな連続制御タスクにおいて堅牢な性能を実現し, 既存手法より優れていた。
関連論文リスト
- Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation [5.928213664340974]
本研究は自動運転の制御最適化問題における安全性問題に対処する。
本稿では,条件付きバリュー・アット・リスクに基づくソフトアクター批判を利用して,ポリシー最適化のための新しいモデルベースアプローチを提案する。
本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。
論文 参考訳(メタデータ) (2024-07-08T18:32:40Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。