Fugu-MT 論文翻訳(概要): Improving Robustness via Risk Averse Distributional Reinforcement Learning

論文の概要: Improving Robustness via Risk Averse Distributional Reinforcement Learning

arxiv url: http://arxiv.org/abs/2005.00585v1
Date: Fri, 1 May 2020 20:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 23:20:42.910417
Title: Improving Robustness via Risk Averse Distributional Reinforcement Learning
Title（参考訳）: リスク逆分布強化学習によるロバスト性向上
Authors: Rahul Singh, Qinsheng Zhang, Yongxin Chen
Abstract要約: 実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 13.467017642143581
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One major obstacle that precludes the success of reinforcement learning in real-world applications is the lack of robustness, either to model uncertainties or external disturbances, of the trained policies. Robustness is critical when the policies are trained in simulations instead of real world environment. In this work, we propose a risk-aware algorithm to learn robust policies in order to bridge the gap between simulation training and real-world implementation. Our algorithm is based on recently discovered distributional RL framework. We incorporate CVaR risk measure in sample based distributional policy gradients (SDPG) for learning risk-averse policies to achieve robustness against a range of system disturbances. We validate the robustness of risk-aware SDPG on multiple environments.
Abstract（参考訳）: 現実世界の応用において強化学習の成功を妨げる大きな障害の1つは、訓練された政策の不確実性や外乱をモデル化するための堅牢性の欠如である。ポリシーが実環境ではなくシミュレーションで訓練される場合、堅牢性は重要です。本研究では,シミュレーション学習と実世界実装のギャップを埋めるため,堅牢なポリシを学習するためのリスク対応アルゴリズムを提案する。このアルゴリズムは、最近発見された分散RLフレームワークに基づいている。 CVaRリスク尺度をサンプルベース分散政策勾配(SDPG)に組み込んでリスク回避政策を学習し,システム障害に対する堅牢性を実現する。複数の環境におけるリスク認識型SDPGの堅牢性を検証する。

関連論文リスト

Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-03T20:25:41Z)
Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文参考訳（メタデータ） (2024-09-16T08:54:59Z)
Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文参考訳（メタデータ） (2023-07-02T11:47:21Z)
Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文参考訳（メタデータ） (2023-01-30T00:37:06Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文参考訳（メタデータ） (2021-12-26T16:41:05Z)
Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文参考訳（メタデータ） (2021-05-31T21:04:21Z)
Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。 O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文参考訳（メタデータ） (2021-02-10T10:27:49Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。 textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文参考訳（メタデータ） (2020-03-21T00:10:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。