Fugu-MT 論文翻訳(概要): Risk-Averse Reinforcement Learning: An Optimal Transport Perspective on Temporal Difference Learning

論文の概要: Risk-Averse Reinforcement Learning: An Optimal Transport Perspective on Temporal Difference Learning

arxiv url: http://arxiv.org/abs/2502.16328v1
Date: Sat, 22 Feb 2025 19:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.101443
Title: Risk-Averse Reinforcement Learning: An Optimal Transport Perspective on Temporal Difference Learning
Title（参考訳）: リスク・アバース強化学習 : 時間差学習における最適輸送視点
Authors: Zahra Shahrooei, Ali Baheri,
Abstract要約: 本稿では、最適輸送理論を用いてエージェントを予測可能な行動へ誘導するリスク-逆時間差分アルゴリズムを提案する。本手法は, 性能を保ちながら, 危険状態への訪問頻度を低減できることを示す。
参考スコア（独自算出の注目度）: 4.14360329494344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The primary goal of reinforcement learning is to develop decision-making policies that prioritize optimal performance, frequently without considering risk or safety. In contrast, safe reinforcement learning seeks to reduce or avoid unsafe states. This letter introduces a risk-averse temporal difference algorithm that uses optimal transport theory to direct the agent toward predictable behavior. By incorporating a risk indicator, the agent learns to favor actions with predictable consequences. We evaluate the proposed algorithm in several case studies and show its effectiveness in the presence of uncertainty. The results demonstrate that our method reduces the frequency of visits to risky states while preserving performance. A Python implementation of the algorithm is available at https:// github.com/SAILRIT/Risk-averse-TD-Learning.
Abstract（参考訳）: 強化学習の第一の目的は、リスクや安全性を考慮せずに、しばしば最適なパフォーマンスを優先する意思決定ポリシーを開発することである。対照的に、安全な強化学習は、安全でない状態を減らしたり回避しようとする。本稿では、最適輸送理論を用いてエージェントを予測可能な行動へ誘導するリスク-逆時間差分アルゴリズムを提案する。リスクインジケータを組み込むことで、エージェントは予測可能な結果のアクションを選択することを学ぶ。提案アルゴリズムをいくつかのケーススタディで評価し,不確実性の存在下での有効性を示した。その結果,本手法は,性能を保ちながら,危険状態への訪問頻度を減少させることを示した。アルゴリズムのPython実装はhttps:// github.com/SAILRIT/Risk-averse-TD-Learningで公開されている。

関連論文リスト

Risk-averse learning with delayed feedback [17.626195546400247]
我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T12:32:22Z)
Optimal Transport-Assisted Risk-Sensitive Q-Learning [4.14360329494344]
本稿では,エージェントの安全性を高めるために最適な輸送理論を利用するリスク感受性Q-ラーニングアルゴリズムを提案する。提案したアルゴリズムをGridworld環境で検証する。
論文参考訳（メタデータ） (2024-06-17T17:32:25Z)
Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time [0.6554326244334868]
安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。学習方針は高い信頼を持って安全であることを示す。また、プロキシセットと呼ばれる状態空間のサブセットを定義することで、効率的な探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-03-23T20:22:30Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文参考訳（メタデータ） (2023-11-01T22:12:50Z)
Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文参考訳（メタデータ） (2023-04-21T16:19:54Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Safe Reinforcement Learning by Imagining the Near Future [37.0376099401243]
本研究は, 短期的に計画することで, 安全でない状態を回避できるような環境に着目する。我々は、安全でない軌跡を過度に罰するモデルに基づくアルゴリズムを考案し、そのアルゴリズムが特定の仮定の下で安全でない状態を回避できることを保証する。実験により, 連続制御タスクにおいて, 安全性違反が少なく, 競争力のある報奨を達成できることが実証された。
論文参考訳（メタデータ） (2022-02-15T23:28:24Z)
Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文参考訳（メタデータ） (2021-09-30T02:29:21Z)
Improving Safety in Deep Reinforcement Learning using Unsupervised Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文参考訳（メタデータ） (2021-09-29T10:26:29Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Learning Uncertainty For Safety-Oriented Semantic Segmentation In Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文参考訳（メタデータ） (2021-05-28T09:23:05Z)
Context-Aware Safe Reinforcement Learning for Non-Stationary Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-01-02T23:52:22Z)
Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。 BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文参考訳（メタデータ） (2020-07-24T01:52:11Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)
Excursion Search for Constrained Bayesian Optimization under a Limited Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文参考訳（メタデータ） (2020-05-15T09:54:09Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。