論文の概要: Risk-Averse Reinforcement Learning with Itakura-Saito Loss
- arxiv url: http://arxiv.org/abs/2505.16925v1
- Date: Thu, 22 May 2025 17:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.490148
- Title: Risk-Averse Reinforcement Learning with Itakura-Saito Loss
- Title(参考訳): 板倉・斎藤損失によるリスク・アバース強化学習
- Authors: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin,
- Abstract要約: 状態値と行動値の関数を学習するために,板倉-斎藤偏差に基づく安定かつ数学的に音響損失関数を導入する。
提案する損失関数を,理論上も経験的にも,確立した代替案に対して評価する。
- 参考スコア(独自算出の注目度): 63.620958078179356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Risk-averse reinforcement learning finds application in various high-stakes fields. Unlike classical reinforcement learning, which aims to maximize expected returns, risk-averse agents choose policies that minimize risk, occasionally sacrificing expected value. These preferences can be framed through utility theory. We focus on the specific case of the exponential utility function, where we can derive the Bellman equations and employ various reinforcement learning algorithms with few modifications. However, these methods suffer from numerical instability due to the need for exponent computation throughout the process. To address this, we introduce a numerically stable and mathematically sound loss function based on the Itakura-Saito divergence for learning state-value and action-value functions. We evaluate our proposed loss function against established alternatives, both theoretically and empirically. In the experimental section, we explore multiple financial scenarios, some with known analytical solutions, and show that our loss function outperforms the alternatives.
- Abstract(参考訳): リスク-逆強化学習は、様々なハイテイク分野に適用できる。
期待される利益を最大化することを目的とした古典的強化学習とは異なり、リスク回避エージェントはリスクを最小限に抑え、時には期待される価値を犠牲にする政策を選択する。
これらの選好は実用理論で表すことができる。
本稿では,ベルマン方程式を導出し,修正の少ない各種強化学習アルゴリズムを用いる指数効用関数の具体例に着目した。
しかし、これらの手法は、プロセス全体にわたって指数計算を必要とするため、数値的な不安定さに悩まされる。
そこで本稿では,状態値と行動値の関数を学習するための板倉-斎藤偏差に基づく数値的安定・数学的損失関数を提案する。
提案する損失関数を,理論上も経験的にも,確立した代替案に対して評価する。
実験セクションでは、複数の金融シナリオについて検討し、いくつかの既知の分析解を用いて、損失関数が代替よりも優れていることを示す。
関連論文リスト
- Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。
このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。
我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-07T16:31:42Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Nonparametric Linear Feature Learning in Regression Through Regularisation [0.0]
連立線形特徴学習と非パラメトリック関数推定のための新しい手法を提案する。
代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。
提案手法の予測リスクは,最小限の仮定と明示的なレートで最小限のリスクに収束することを確認した。
論文 参考訳(メタデータ) (2023-07-24T12:52:55Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。