論文の概要: Safe Domain Randomization via Uncertainty-Aware Out-of-Distribution Detection and Policy Adaptation
- arxiv url: http://arxiv.org/abs/2507.06111v1
- Date: Tue, 08 Jul 2025 15:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.272663
- Title: Safe Domain Randomization via Uncertainty-Aware Out-of-Distribution Detection and Policy Adaptation
- Title(参考訳): 不確実性を考慮したアウト・オブ・ディストリビューション検出とポリシー適応による安全なドメインランダム化
- Authors: Mohamad H. Danesh, Maxime Wabartha, Stanley Wu, Joelle Pineau, Hsiu-Chin Lin,
- Abstract要約: Uncertainty-Aware RL (UARL) は、ターゲットドメイン内で直接のインタラクションを必要とせず、OOD(Out-Of-Distribution)の検出とポリシー適応に対処することで、トレーニング中の安全性を優先する新しいフレームワークである。
我々は, MuJoCoベンチマークと四足歩行ロボット上でのUARLを評価し, 信頼性の高いOOD検出, 性能向上, ベースラインと比較して試料効率の向上を実証した。
- 参考スコア(独自算出の注目度): 26.241756408576684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying reinforcement learning (RL) policies in real-world involves significant challenges, including distribution shifts, safety concerns, and the impracticality of direct interactions during policy refinement. Existing methods, such as domain randomization (DR) and off-dynamics RL, enhance policy robustness by direct interaction with the target domain, an inherently unsafe practice. We propose Uncertainty-Aware RL (UARL), a novel framework that prioritizes safety during training by addressing Out-Of-Distribution (OOD) detection and policy adaptation without requiring direct interactions in target domain. UARL employs an ensemble of critics to quantify policy uncertainty and incorporates progressive environmental randomization to prepare the policy for diverse real-world conditions. By iteratively refining over high-uncertainty regions of the state space in simulated environments, UARL enhances robust generalization to the target domain without explicitly training on it. We evaluate UARL on MuJoCo benchmarks and a quadrupedal robot, demonstrating its effectiveness in reliable OOD detection, improved performance, and enhanced sample efficiency compared to baselines.
- Abstract(参考訳): 実世界における強化学習(RL)政策の展開には、分散シフト、安全上の懸念、政策改善時の直接的相互作用の非現実性など、重大な課題が伴う。
ドメインランダム化(DR)やオフダイナミックス(英語版)RL(英語版)のような既存の手法は、本質的に安全でないプラクティスであるターゲットドメインと直接相互作用することで、ポリシーの堅牢性を高める。
対象領域での直接のインタラクションを必要とせず、OOD(Out-Of-Distribution)の検出とポリシー適応に対処することで、トレーニング中の安全性を優先する新しいフレームワークであるUncertainty-Aware RL(UARL)を提案する。
UARLは、政策の不確実性を定量化するために批評家の集まりを採用し、様々な現実世界の状況に対応するために、進歩的な環境ランダム化を取り入れている。
シミュレーション環境における状態空間の高不確かさ領域を反復的に精錬することにより、UARLは明示的にトレーニングすることなく、ターゲット領域への堅牢な一般化を強化する。
我々は, MuJoCoベンチマークと四足歩行ロボット上でUARLを評価し, 信頼性の高いOOD検出, 性能向上, ベースラインと比較して試料効率の向上を実証した。
関連論文リスト
- Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics [3.7491742648742568]
ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。
実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T23:28:11Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
GAPは汎用的な自律型ペンテスティングフレームワークである。
現実的な環境で効率的な政策トレーニングを実現することを目的としている。
また、あるインスタンスから他のケースについて推論できるエージェントを訓練する。
論文 参考訳(メタデータ) (2024-12-05T11:24:27Z) - Random Policy Enables In-Context Reinforcement Learning within Trust Horizons [2.52299400625445]
State-Action Distillation (SAD) は、ランダムポリシーのみによってガイドされる効果的な事前学習データセットを生成する。
SADはオフライン評価では236.3%、オンライン評価では135.2%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-10-25T21:46:25Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文 参考訳(メタデータ) (2022-02-11T18:27:23Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。