論文の概要: SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.15512v1
- Date: Fri, 21 Feb 2025 15:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:13.335414
- Title: SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning
- Title(参考訳): SALSA-RL:強化学習のための潜在行動空間の安定性解析
- Authors: Xuyang Li, Romit Maulik,
- Abstract要約: 本研究では,SALSA-RL(Stability Analysis in the Latent Space of Actions)を提案する。
事前訓練されたエンコーダデコーダと状態依存線形システムを用いることで,安定性解析と解釈可能性の両方を実現する。
- 参考スコア(独自算出の注目度): 2.7075926292355286
- License:
- Abstract: Modern deep reinforcement learning (DRL) methods have made significant advances in handling continuous action spaces. However, real-world control systems--especially those requiring precise and reliable performance--often demand formal stability, and existing DRL approaches typically lack explicit mechanisms to ensure or analyze stability. To address this limitation, we propose SALSA-RL (Stability Analysis in the Latent Space of Actions), a novel RL framework that models control actions as dynamic, time-dependent variables evolving within a latent space. By employing a pre-trained encoder-decoder and a state-dependent linear system, our approach enables both stability analysis and interpretability. We demonstrated that SALSA-RL can be deployed in a non-invasive manner for assessing the local stability of actions from pretrained RL agents without compromising on performance across diverse benchmark environments. By enabling a more interpretable analysis of action generation, SALSA-RL provides a powerful tool for advancing the design, analysis, and theoretical understanding of RL systems.
- Abstract(参考訳): 現代の深部強化学習(DRL)法は連続的な行動空間の処理に大きな進歩をもたらした。
しかし、現実世界の制御システム(特に正確で信頼性の高い性能を必要とするもの)は、しばしば正式な安定性を要求するが、既存のDRLアプローチは、安定性を保証するか分析するための明確なメカニズムを欠いている。
この制限に対処するため,SALSA-RL(Stability Analysis in the Latent Space of Actions)を提案する。
事前学習したエンコーダデコーダと状態依存線形システムを用いることで,安定性解析と解釈可能性の両方を実現する。
SALSA-RLは, 各種ベンチマーク環境における性能を損なうことなく, 予め訓練したRLエージェントからの動作の局所的安定性を評価するために, 非侵襲的に展開可能であることを実証した。
SALSA-RLは、アクション生成をより解釈可能な分析を可能にすることで、RLシステムの設計、解析、理論的理解を促進する強力なツールを提供する。
関連論文リスト
- xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability [8.016667413960995]
我々は、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
論文 参考訳(メタデータ) (2024-12-26T18:19:04Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Control invariant set enhanced safe reinforcement learning: improved
sampling efficiency, guaranteed stability and robustness [0.0]
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
提案手法のロバスト性は不確実性の存在下で検討される。
その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証が得られた。
論文 参考訳(メタデータ) (2023-05-24T22:22:19Z) - Control invariant set enhanced reinforcement learning for process
control: improved sampling efficiency and guaranteed stability [0.0]
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
このアプローチは、オフラインとオンラインの2つの学習段階で構成されている。
その結果,オフライントレーニングにおけるサンプリング効率が向上し,オンライン実装におけるクローズドループ安定性が向上した。
論文 参考訳(メタデータ) (2023-04-11T21:27:36Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Dependability Analysis of Deep Reinforcement Learning based Robotics and
Autonomous Systems [10.499662874457998]
深層強化学習(DRL)のブラックボックスの性質と不確実な展開環境は、その信頼性に新たな課題をもたらす。
本稿では、時間論理における信頼性特性のセットを定義し、DRL駆動RASのリスク/障害のダイナミクスをモデル化するための離散時間マルコフ連鎖(DTMC)を構築する。
実験の結果,提案手法は総合評価の枠組みとして有効であり,また,トレーニングにおいてトレードオフを必要とする可能性のある特性の相違を明らかにする。
論文 参考訳(メタデータ) (2021-09-14T08:42:29Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。