論文の概要: Transferable Reinforcement Learning via Probabilistic Latent Embeddings and Dynamic Policy Adaptation for Sim-to-Real Deployment
- arxiv url: http://arxiv.org/abs/2605.27659v1
- Date: Tue, 26 May 2026 20:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.505617
- Title: Transferable Reinforcement Learning via Probabilistic Latent Embeddings and Dynamic Policy Adaptation for Sim-to-Real Deployment
- Title(参考訳): 確率的潜伏埋め込みによるトランスファーブル強化学習とシム・トゥ・リアル展開のための動的ポリシー適応
- Authors: Gengyue Han, Yiheng Feng,
- Abstract要約: 多くのサイバー物理システムのための深層強化学習(RL)エージェントは、まずシミュレーターで訓練される。
現実の環境では、Sim2Realのギャップが避けられないため、パフォーマンス劣化や安全違反に悩まされることが多い。
本稿では,確率的潜伏埋め込みと動的ポリシー適応による安全かつ効率的な政策伝達を可能にする新しい強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.938653166789926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to limited resources and public safety concerns, deep reinforcement learning (RL) agents for many cyber-physical systems (e.g., autonomous vehicles) are first trained in simulators. However, when deployed in real world environments, they often suffer from performance degradation or safety violations because of the inevitable Sim2Real gap. Existing zero-shot approaches, such as robust safe RL and domain randomization, mitigate this issue but typically at the cost of degraded performance or residual safety risks when experiencing unmodeled system dynamics. To address these limitations, we propose a novel reinforcement learning framework that enables safe and efficient policy transfer via probabilistic latent embeddings and dynamic policy adaptation. We consider a family of Constrained Markov Decision Processes (CMDPs) under different environment contexts. By leveraging latent context variable in meta-RL, the proposed framework infers the latent representation of the environment from simulated experiences. Furthermore, it incorporates a distributional RL formulation, which allows risk levels of the deployed policy to be adjusted dynamically, based on the estimation accuracy of the latent context variable. This strategy promotes safety at the early deployment stage and improves efficiency through fast policy adaptation under the Sim2Real gap.
- Abstract(参考訳): 限られた資源と公共の安全上の懸念から、多くのサイバー物理システム(例えば自動運転車)のための深層強化学習(RL)エージェントは、まずシミュレーターで訓練される。
しかし、現実の環境では、Sim2Realのギャップが避けられないため、パフォーマンス劣化や安全違反に悩まされることが多い。
堅牢な安全なRLやドメインランダム化のような既存のゼロショットアプローチは、この問題を軽減するが、通常、非モデル化システムダイナミクスを経験する際の性能低下や残留安全性のリスクを犠牲にしている。
これらの制約に対処するために,確率的潜伏埋め込みと動的ポリシー適応による安全かつ効率的な政策伝達を可能にする新しい強化学習フレームワークを提案する。
制約付きマルコフ決定プロセス(CMDP)のファミリーを異なる環境条件下で検討する。
メタRLにおける潜在コンテキスト変数を活用することにより、シミュレーションされた経験から、提案フレームワークは環境の潜時表現を推論する。
さらに、潜在コンテキスト変数の推定精度に基づいて、デプロイされたポリシーのリスクレベルを動的に調整できる分散RL定式化も組み込まれている。
この戦略は、初期の配備段階での安全性を促進し、Sim2Realギャップの下での迅速なポリシー適応を通じて効率を向上させる。
関連論文リスト
- Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation [54.29523408543184]
シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。
既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T00:51:47Z) - SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer [60.19411648245077]
悲観的領域ランダム化によるSim-to-realの略称であるSPiDRを提案する。
SPiDRは、安全なsim-to-real転送を保証するスケーラブルなアルゴリズムである。
我々は,SPiDRが性能を維持しつつ,シミュレートとリアルのギャップを保ちながら,安全性を効果的に確保できることを実証した。
論文 参考訳(メタデータ) (2025-09-23T05:03:00Z) - Safe Domain Randomization via Uncertainty-Aware Out-of-Distribution Detection and Policy Adaptation [26.241756408576684]
Uncertainty-Aware RL (UARL) は、ターゲットドメイン内で直接のインタラクションを必要とせず、OOD(Out-Of-Distribution)の検出とポリシー適応に対処することで、トレーニング中の安全性を優先する新しいフレームワークである。
我々は, MuJoCoベンチマークと四足歩行ロボット上でのUARLを評価し, 信頼性の高いOOD検出, 性能向上, ベースラインと比較して試料効率の向上を実証した。
論文 参考訳(メタデータ) (2025-07-08T15:51:57Z) - Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics [3.7491742648742568]
ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。
実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T23:28:11Z) - Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
GAPは汎用的な自律型ペンテスティングフレームワークである。
現実的な環境で効率的な政策トレーニングを実現することを目的としている。
また、あるインスタンスから他のケースについて推論できるエージェントを訓練する。
論文 参考訳(メタデータ) (2024-12-05T11:24:27Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。