Fugu-MT 論文翻訳(概要): Risk-Sensitive Reinforcement Learning with Exponential Criteria

論文の概要: Risk-Sensitive Reinforcement Learning with Exponential Criteria

arxiv url: http://arxiv.org/abs/2212.09010v2
Date: Tue, 21 Mar 2023 04:48:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 00:59:42.970618
Title: Risk-Sensitive Reinforcement Learning with Exponential Criteria
Title（参考訳）: 指数的基準を用いたリスク感応強化学習
Authors: Erfaun Noorani, Christos Mavridis, John Baras
Abstract要約: 本研究では,指数的基準が強化学習エージェントの政策のリスク感受性に及ぼす影響について検討した。我々はモンテカルロポリシーグラディエントアルゴリズムとオンライン(時間差)アクター・クリティカルアルゴリズムの変種を開発する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While risk-neutral reinforcement learning has shown experimental success in a number of applications, it is well-known to be non-robust with respect to noise and perturbations in the parameters of the system. For this reason, risk-sensitive reinforcement learning algorithms have been studied to introduce robustness and sample efficiency, and lead to better real-life performance. In this work, we introduce new model-free risk-sensitive reinforcement learning algorithms as variations of widely-used Policy Gradient algorithms with similar implementation properties. In particular, we study the effect of exponential criteria on the risk-sensitivity of the policy of a reinforcement learning agent, and develop variants of the Monte Carlo Policy Gradient algorithm and the online (temporal-difference) Actor-Critic algorithm. Analytical results showcase that the use of exponential criteria generalize commonly used ad-hoc regularization approaches. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
Abstract（参考訳）: リスクニュートラルな強化学習は多くの応用で実験的に成功したが、システムのパラメータのノイズや摂動に関して非破壊的であることはよく知られている。このため, リスクに敏感な強化学習アルゴリズムが研究され, 堅牢性とサンプル効率が向上し, 実生活性能が向上した。そこで本研究では,類似の実装特性を持つ広く用いられているポリシ勾配アルゴリズムのバリエーションとして,モデルフリーなリスク感応強化学習アルゴリズムを導入する。特に,強化学習エージェントの方針のリスク感受性に及ぼす指数的基準の影響について検討し,モンテカルロ政策勾配アルゴリズムとオンライン・アクタ-クリティックアルゴリズムの変種を開発した。分析結果は、指数基準の使用が一般的に使用されるアドホック正則化アプローチを一般化することを示している。提案手法の実装,性能,ロバスト性についてシミュレーション実験により評価した。

関連論文リスト

Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2025-05-07T16:31:42Z)
Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文参考訳（メタデータ） (2024-11-29T14:22:51Z)
Regularized Neural Ensemblers [55.15643209328513]
本研究では,正規化ニューラルネットワークをアンサンブル手法として活用することを検討する。低多様性のアンサンブルを学習するリスクを動機として,ランダムにベースモデル予測をドロップすることで,アンサンブルモデルの正規化を提案する。このアプローチはアンサンブル内の多様性の低い境界を提供し、過度な適合を減らし、一般化能力を向上させる。
論文参考訳（メタデータ） (2024-10-06T15:25:39Z)
Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文参考訳（メタデータ） (2024-08-19T03:15:41Z)
Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-15T14:55:38Z)
The Risk of Federated Learning to Skew Fine-Tuning Features and Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。 3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文参考訳（メタデータ） (2024-01-25T09:18:51Z)
Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文参考訳（メタデータ） (2023-12-21T16:34:03Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文参考訳（メタデータ） (2022-06-29T14:11:15Z)
Robust Reinforcement Learning with Distributional Risk-averse formulation [1.2891210250935146]
リスク・アバースの近似式を用いて,ロバスト強化学習を$Phi$-divergenceで制約する。古典的強化学習の定式化は、目的の標準偏差ペナル化を用いて堅牢化できることを示す。
論文参考訳（メタデータ） (2022-06-14T13:33:58Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。