論文の概要: Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions
- arxiv url: http://arxiv.org/abs/2505.04553v2
- Date: Thu, 15 May 2025 10:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.643591
- Title: Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions
- Title(参考訳): 凸スコーリング関数に基づくリスク感性強化学習
- Authors: Shanyu Han, Yang Liu, Xiang Yu,
- Abstract要約: コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。
このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。
我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
- 参考スコア(独自算出の注目度): 8.758206783988404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a reinforcement learning (RL) framework under a broad class of risk objectives, characterized by convex scoring functions. This class covers many common risk measures, such as variance, Expected Shortfall, entropic Value-at-Risk, and mean-risk utility. To resolve the time-inconsistency issue, we consider an augmented state space and an auxiliary variable and recast the problem as a two-state optimization problem. We propose a customized Actor-Critic algorithm and establish some theoretical approximation guarantees. A key theoretical contribution is that our results do not require the Markov decision process to be continuous. Additionally, we propose an auxiliary variable sampling method inspired by the alternating minimization algorithm, which is convergent under certain conditions. We validate our approach in simulation experiments with a financial application in statistical arbitrage trading, demonstrating the effectiveness of the algorithm.
- Abstract(参考訳): コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習(RL)フレームワークを提案する。
このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。
時間不整合問題を解決するため、拡張状態空間と補助変数を考慮し、2状態最適化問題として再放送する。
そこで我々は,アクター・クライブアルゴリズムをカスタマイズし,理論的近似の保証を確立する。
重要な理論的貢献は、我々の結果はマルコフ決定過程が連続であることを必要としないことである。
さらに,ある条件下で収束する交代最小化アルゴリズムにインスパイアされた補助変数サンプリング手法を提案する。
我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
関連論文リスト
- Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。
累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。