論文の概要: Optimal Transport-Guided Safety in Temporal Difference Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.16328v2
- Date: Sat, 14 Jun 2025 12:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:30.095478
- Title: Optimal Transport-Guided Safety in Temporal Difference Reinforcement Learning
- Title(参考訳): 時間差強化学習における最適輸送誘導安全
- Authors: Zahra Shahrooei, Ali Baheri,
- Abstract要約: 本稿では,環境条件下での安全性を,より予測可能な結果を伴う行動とみなす。
この不確実性スコアを意思決定目的に統合することにより、エージェントはより予測可能な結果のアクションを推奨する。
- 参考スコア(独自算出の注目度): 4.14360329494344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary goal of reinforcement learning is to develop decision-making policies that prioritize optimal performance, frequently without considering safety. In contrast, safe reinforcement learning seeks to reduce or avoid unsafe behavior. This paper views safety as taking actions with more predictable consequences under environment stochasticity and introduces a temporal difference algorithm that uses optimal transport theory to quantify the uncertainty associated with actions. By integrating this uncertainty score into the decision-making objective, the agent is encouraged to favor actions with more predictable outcomes. We theoretically prove that our algorithm leads to a reduction in the probability of visiting unsafe states. We evaluate the proposed algorithm on several case studies in the presence of various forms of environment uncertainty. The results demonstrate that our method not only provides safer behavior but also maintains the performance. A Python implementation of our algorithm is available at \href{https://github.com/SAILRIT/Risk-averse-TD-Learning}{https://github.com/SAILRIT/OT-guided-TD-Learning}.
- Abstract(参考訳): 強化学習の第一の目的は、安全を考慮せずに最適な性能を優先する意思決定ポリシーを開発することである。
対照的に、安全な強化学習は、安全でない振る舞いを減らしたり回避しようとする。
本稿では、環境確率性の下でのより予測可能な結果を伴う行動を取ることの安全性を考察し、最適な輸送理論を用いて行動に関連する不確実性を定量化する時間差分アルゴリズムを提案する。
この不確実性スコアを意思決定目的に統合することにより、エージェントはより予測可能な結果のアクションを推奨する。
理論的には、このアルゴリズムが安全でない状態の訪問確率の低下につながることを証明している。
本研究では,様々な環境不確実性が存在するケーススタディにおいて,提案手法の評価を行った。
その結果,本手法はより安全な動作を提供するだけでなく,性能も維持できることがわかった。
アルゴリズムのPython実装は、 \href{https://github.com/SAILRIT/Risk-averse-TD-Learning}{https://github.com/SAILRIT/OT-guided-TD-Learning} で利用可能である。
関連論文リスト
- Risk-averse learning with delayed feedback [17.626195546400247]
我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。
その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T12:32:22Z) - Optimal Transport-Assisted Risk-Sensitive Q-Learning [4.14360329494344]
本稿では,エージェントの安全性を高めるために最適な輸送理論を利用するリスク感受性Q-ラーニングアルゴリズムを提案する。
提案したアルゴリズムをGridworld環境で検証する。
論文 参考訳(メタデータ) (2024-06-17T17:32:25Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Reinforcement Learning by Imagining the Near Future [37.0376099401243]
本研究は, 短期的に計画することで, 安全でない状態を回避できるような環境に着目する。
我々は、安全でない軌跡を過度に罰するモデルに基づくアルゴリズムを考案し、そのアルゴリズムが特定の仮定の下で安全でない状態を回避できることを保証する。
実験により, 連続制御タスクにおいて, 安全性違反が少なく, 競争力のある報奨を達成できることが実証された。
論文 参考訳(メタデータ) (2022-02-15T23:28:24Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。