Fugu-MT 論文翻訳(概要): Optimal Transport Perturbations for Safe Reinforcement Learning with Robustness Guarantees

論文の概要: Optimal Transport Perturbations for Safe Reinforcement Learning with Robustness Guarantees

arxiv url: http://arxiv.org/abs/2301.13375v1
Date: Tue, 31 Jan 2023 02:39:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-01 17:51:55.553122
Title: Optimal Transport Perturbations for Safe Reinforcement Learning with Robustness Guarantees
Title（参考訳）: ロバスト性保証を用いた安全強化学習のための最適輸送摂動
Authors: James Queeney, Erhan Can Ozcan, Ioannis Ch. Paschalidis, Christos G. Cassandras
Abstract要約: 本稿では,最適な輸送コストの不確実性セットを用いて,ロバスト性を保証する安全な強化学習フレームワークを提案する。実世界強化学習スイート(Real-World Reinforcement Learning Suite)において、安全性に制約のあるさまざまな継続的制御タスクに対する、我々のアプローチの堅牢で安全なパフォーマンスを実証する。
参考スコア（独自算出の注目度）: 9.742764207747697
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robustness and safety are critical for the trustworthy deployment of deep reinforcement learning in real-world decision making applications. In particular, we require algorithms that can guarantee robust, safe performance in the presence of general environment disturbances, while making limited assumptions on the data collection process during training. In this work, we propose a safe reinforcement learning framework with robustness guarantees through the use of an optimal transport cost uncertainty set. We provide an efficient, theoretically supported implementation based on Optimal Transport Perturbations, which can be applied in a completely offline fashion using only data collected in a nominal training environment. We demonstrate the robust, safe performance of our approach on a variety of continuous control tasks with safety constraints in the Real-World Reinforcement Learning Suite.
Abstract（参考訳）: 強固さと安全性は、現実世界の意思決定アプリケーションにおける深層強化学習の信頼性の高い展開に不可欠である。特に、トレーニング中のデータ収集プロセスに限定的な仮定をしながら、一般的な環境障害が存在する場合の堅牢で安全なパフォーマンスを保証するアルゴリズムが必要である。本研究では,最適輸送コスト不確実性セットを用いて,堅牢性を保証する安全強化学習フレームワークを提案する。名目訓練環境で収集されたデータのみを使用して完全にオフラインで適用可能な最適輸送摂動に基づく効率的かつ理論的に支援された実装を提供する。我々は,実世界の強化学習スイートにおいて,安全制約を伴う各種連続制御タスクにおけるロバストで安全な手法の性能を示す。

関連論文リスト

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
Predictive Safety Shield for Dyna-Q Reinforcement Learning [0.0]
離散空間におけるモデルに基づく強化学習エージェントの予測安全シールドを提案する。我々の安全シールドは、環境モデルの安全なシミュレーションから生じる安全な予測に基づいて、Q関数を局所的に更新する。グリッドワールド環境に関する我々の実験は、たとえ短い予測地平線であっても最適な経路を特定するのに十分であることを示した。
論文参考訳（メタデータ） (2025-11-26T15:59:55Z)
Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。 RLVRにおける安全特性の総合的・実証的な分析を行った。実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文参考訳（メタデータ） (2025-11-26T04:36:34Z)
Decoupling Safety into Orthogonal Subspace: Cost-Efficient and Performance-Preserving Alignment for Large Language Models [39.71740443729507]
安全データのみをトレーニングしても,LORAに基づくRefusal-trainingにより安全性アライメントの維持が可能であることを示す。我々は,LoRAがモデル固有の変換空間に対して,安全性を低ランク部分空間に効果的に分離する,理論的および実験的証拠の両方を提供する。
論文参考訳（メタデータ） (2025-10-10T05:01:44Z)
Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文参考訳（メタデータ） (2025-08-17T23:46:36Z)
Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文参考訳（メタデータ） (2025-06-03T11:17:07Z)
Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文参考訳（メタデータ） (2025-04-03T21:35:22Z)
Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文参考訳（メタデータ） (2024-05-29T18:00:21Z)
Searching for Optimal Runtime Assurance via Reachability and Reinforcement Learning [2.422636931175853]
あるプラントのランタイム保証システム(RTA)は、バックアップコントローラで安全性を確保しながら、信頼できないまたは実験的なコントローラの運動を可能にする。既存のRTA設計戦略は、過度に保守的であることで知られており、原則として、安全違反につながる可能性がある。本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-06T14:45:57Z)
Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文参考訳（メタデータ） (2023-09-24T02:36:42Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文参考訳（メタデータ） (2022-12-06T18:53:34Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文参考訳（メタデータ） (2022-08-23T05:02:09Z)
Adaptive control of a mechatronic system using constrained residual reinforcement learning [0.0]
本研究では,不確実な環境下での従来のコントローラの性能向上のための,シンプルで実用的で直感的な手法を提案する。本手法は, 産業用モーションコントロールにおける従来の制御器が, 異なる動作条件に対応するために適応性よりも頑健であることを示す。
論文参考訳（メタデータ） (2021-10-06T08:13:05Z)
Context-Aware Safe Reinforcement Learning for Non-Stationary Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-01-02T23:52:22Z)
Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文参考訳（メタデータ） (2020-10-27T17:54:25Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。