Fugu-MT 論文翻訳(概要): Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning

論文の概要: Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning

arxiv url: http://arxiv.org/abs/2301.12593v1
Date: Mon, 30 Jan 2023 00:37:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 16:12:30.964394
Title: Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning
Title（参考訳）: 分布的ロバストな安全強化学習のためのリスク-逆モデル不確かさ
Authors: James Queeney and Mouhacine Benosman
Abstract要約: 多くの現実世界のドメインでは、不確実性が存在する場合、安全な意思決定が必要である。我々は、コヒーレント歪みリスク対策を用いて、モデル不確実性に対するリスク-逆の視点を考察する。我々の定式化は, 信頼性と安全性を保証し, 分散的に堅牢な強化学習問題と等価であることを示す。
参考スコア（独自算出の注目度）: 4.527078001090015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many real-world domains require safe decision making in the presence of uncertainty. In this work, we propose a deep reinforcement learning framework for approaching this important problem. We consider a risk-averse perspective towards model uncertainty through the use of coherent distortion risk measures, and we show that our formulation is equivalent to a distributionally robust safe reinforcement learning problem with robustness guarantees on performance and safety. We propose an efficient implementation that only requires access to a single training environment, and we demonstrate that our framework produces robust, safe performance on a variety of continuous control tasks with safety constraints in the Real-World Reinforcement Learning Suite.
Abstract（参考訳）: 多くの現実世界のドメインは、不確実性の存在下での安全な意思決定を必要とする。本研究では,この重要な問題にアプローチするための深層強化学習フレームワークを提案する。我々は,コヒーレント歪みリスク尺度を用いて,モデル不確実性に対するリスク・逆の視点を考察し,我々の定式化は,性能と安全性を保証し,分布的に堅牢な安全強化学習問題と等価であることを示す。我々は,単一のトレーニング環境へのアクセスのみを必要とする効率的な実装を提案し,本フレームワークが実世界の強化学習スイートにおいて,安全制約を伴う様々な連続制御タスクにおいて堅牢で安全なパフォーマンスを実現することを実証する。

関連論文リスト

An Optimisation Framework for Unsupervised Environment Design [88.29733214939544]
非教師なし環境設計(UED)は、エージェントの全般的な堅牢性を最大化することを目的としている。ゼロサム設定において、証明可能な収束アルゴリズムを提供する。提案手法の有効性を実証的に検証する。
論文参考訳（メタデータ） (2025-05-27T03:07:26Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文参考訳（メタデータ） (2024-06-30T16:05:31Z)
Leveraging Approximate Model-based Shielding for Probabilistic Safety Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文参考訳（メタデータ） (2024-02-01T17:55:08Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文参考訳（メタデータ） (2023-09-11T16:10:58Z)
SafeDiffuser: Safe Planning with Diffusion Probabilistic Models [97.80042457099718]
拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証はない。我々は,拡散確率モデルが仕様を満たすことを保証するために,SafeDiffuserと呼ばれる新しい手法を提案する。提案手法は,迷路経路の生成,足歩行ロボットの移動,空間操作など,安全な計画作業の一連のテストを行う。
論文参考訳（メタデータ） (2023-05-31T19:38:12Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文参考訳（メタデータ） (2021-07-29T13:08:15Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Context-Aware Safe Reinforcement Learning for Non-Stationary Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-01-02T23:52:22Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)
Improving Robustness via Risk Averse Distributional Reinforcement Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-01T20:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。