Fugu-MT 論文翻訳(概要): Risk-sensitive Markov Decision Process and Learning under General Utility Functions

論文の概要: Risk-sensitive Markov Decision Process and Learning under General Utility Functions

arxiv url: http://arxiv.org/abs/2311.13589v2
Date: Sat, 21 Dec 2024 04:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.445538
Title: Risk-sensitive Markov Decision Process and Learning under General Utility Functions
Title（参考訳）: リスクに敏感なマルコフ決定プロセスと一般ユーティリティ機能による学習
Authors: Zhengqi Wu, Renyuan Xu,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
参考スコア（独自算出の注目度）: 3.069335774032178
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement Learning (RL) has gained substantial attention across diverse application domains and theoretical investigations. Existing literature on RL theory largely focuses on risk-neutral settings where the decision-maker learns to maximize the expected cumulative reward. However, in practical scenarios such as portfolio management and e-commerce recommendations, decision-makers often persist in heterogeneous risk preferences subject to outcome uncertainties, which can not be well-captured by the risk-neural framework. Incorporating these preferences can be approached through utility theory, yet the development of risk-sensitive RL under general utility functions remains an open question for theoretical exploration. In this paper, we consider a scenario where the decision-maker seeks to optimize a general utility function of the cumulative reward in the framework of a Markov decision process (MDP). To facilitate the Dynamic Programming Principle and Bellman equation, we enlarge the state space with an additional dimension that accounts for the cumulative reward. We propose a discretized approximation scheme to the MDP under enlarged state space, which is tractable and key for algorithmic design. We then propose a modified value iteration algorithm that employs an epsilon-covering over the space of cumulative reward. When a simulator is accessible, our algorithm efficiently learns a near-optimal policy with guaranteed sample complexity. In the absence of a simulator, our algorithm, designed with an upper-confidence-bound exploration approach, identifies a near-optimal policy while ensuring a guaranteed regret bound. Finally, we establish a novel theoretical regret lower bound for the risk-sensitive setting, and show that the regret of our algorithm matches this lower bound up to a small polynomial factor
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。既存のRL理論に関する文献は主に、意思決定者が期待される累積報酬を最大化するために学習するリスク中立的な設定に焦点を当てている。しかし、ポートフォリオ管理やeコマースレコメンデーションといった実践的なシナリオでは、意思決定者は結果の不確実性による不均一なリスク選好を継続することが多く、リスクニューラルな枠組みでは十分に把握できない。これらの選好を定式化することはユーティリティ理論によってアプローチできるが、一般的なユーティリティ関数の下でのリスク感応性RLの開発は、理論的な探索において未解決の課題である。本稿では,マルコフ決定プロセス(MDP)の枠組みにおいて,累積報酬の汎用機能を最適化しようとするシナリオについて考察する。動的プログラミング原理とベルマン方程式を促進するため、累積報酬を考慮に入れた余剰次元で状態空間を拡大する。本稿では,拡張状態空間下でのMDPに対する離散化近似手法を提案する。次に、累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。シミュレータがアクセス可能になった場合,本アルゴリズムは標本の複雑さを保証した準最適ポリシーを効率的に学習する。シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適方針を定めながら,保証された後悔条件を確実にする。最後に、リスクに敏感な設定に対する新たな理論的後悔の下限を確立し、アルゴリズムの後悔はこの下限を小さな多項式係数に一致させることを示す。

関連論文リスト

Robust Bayesian Dynamic Programming for On-policy Risk-sensitive Reinforcement Learning [4.71677151409532]
本稿では,過渡不確実性に対するロバスト性を含むリスク感応性強化学習のための新しい枠組みを提案する。本フレームワークは,内的リスク対策と外的リスク対策の両方に対して,一般的なコヒーレントリスク対策を許容することにより,既存のRLフレームワークを統一・一般化する。
論文参考訳（メタデータ） (2025-12-31T03:13:22Z)
Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2025-05-07T16:31:42Z)
Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。 RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文参考訳（メタデータ） (2025-03-22T03:18:09Z)
Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文参考訳（メタデータ） (2025-02-27T09:56:51Z)
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文参考訳（メタデータ） (2024-07-10T13:09:52Z)
Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文参考訳（メタデータ） (2024-03-10T21:45:12Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Multivariate Systemic Risk Measures and Computation by Deep Learning Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文参考訳（メタデータ） (2023-02-02T22:16:49Z)
Model-based Safe Deep Reinforcement Learning via a Constrained Proximal Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文参考訳（メタデータ） (2022-10-14T06:53:02Z)
Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-06-28T15:00:45Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Reinforcement Learning with Algorithms from Probabilistic Structure Estimation [9.37335587960084]
強化学習アルゴリズムは未知の環境で最適な決定を学習することを目的としている。エージェントのアクションが環境に影響を及ぼすかどうかは、当初から不明である。どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
論文参考訳（メタデータ） (2021-03-15T09:51:34Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。