Fugu-MT 論文翻訳(概要): On Dynamic Program Decompositions of Static Risk Measures

論文の概要: On Dynamic Program Decompositions of Static Risk Measures

arxiv url: http://arxiv.org/abs/2304.12477v1
Date: Mon, 24 Apr 2023 22:28:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 22:38:01.407397
Title: On Dynamic Program Decompositions of Static Risk Measures
Title（参考訳）: 静的リスク測度の動的プログラム分解について
Authors: Jia Lin Hau, Erick Delage, Mohammad Ghavamzadeh, Marek Petrik
Abstract要約: 本稿は、既存のいくつかの分解が本質的に不完全であることを示し、文献のいくつかの主張に矛盾する。本稿では、VaRに対して正確な分解が可能であることを示し、VaRとCVaRの動的プログラミング特性の根本的な違いを示す簡単な証明を与える。
参考スコア（独自算出の注目度）: 29.729331456595567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimizing static risk-averse objectives in Markov decision processes is challenging because they do not readily admit dynamic programming decompositions. Prior work has proposed to use a dynamic decomposition of risk measures that help to formulate dynamic programs on an augmented state space. This paper shows that several existing decompositions are inherently inexact, contradicting several claims in the literature. In particular, we give examples that show that popular decompositions for CVaR and EVaR risk measures are strict overestimates of the true risk values. However, an exact decomposition is possible for VaR, and we give a simple proof that illustrates the fundamental difference between VaR and CVaR dynamic programming properties.
Abstract（参考訳）: マルコフ決定プロセスにおける静的リスク回避目標の最適化は、動的プログラミングの分解を容易に認めないため難しい。従来の研究では、拡張状態空間上での動的プログラムの定式化に役立つリスク対策の動的分解が提案されている。本論文は, 既存の分解が本質的不正確であることを示し, 文献における複数の主張と矛盾する。特に,CVaRとEVaRのリスク対策の一般的な分解が,真のリスク値の厳密な過大評価であることを示す例を示す。しかし、VaRの正確な分解が可能であり、VaRとCVaRの動的プログラミング特性の根本的な違いを示す単純な証明を与える。

関連論文リスト

Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity [16.835098688159004]
静的条件付きリスクリスク(CVaR)のようなテールエンドのリスク対策は、稀だが破滅的な事態を防止するために安全クリティカルな応用に用いられている。我々は、離散化された拡張状態に依存するリスク逆値とモデルなしQ-ラーニングアルゴリズムを開発した。実験により,本アルゴリズムはCVaR感受性ポリシーを学習し,効果的な性能保証トレードオフを実現することができた。
論文参考訳（メタデータ） (2026-02-03T17:39:45Z)
Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。 RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文参考訳（メタデータ） (2025-12-30T14:38:02Z)
Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-08T00:22:00Z)
Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-03T20:25:41Z)
Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文参考訳（メタデータ） (2024-08-30T13:33:18Z)
Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文参考訳（メタデータ） (2024-05-02T20:28:49Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文参考訳（メタデータ） (2023-04-26T15:54:23Z)
RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文参考訳（メタデータ） (2022-09-09T00:34:58Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文参考訳（メタデータ） (2021-06-11T11:31:04Z)
On the Convergence and Optimality of Policy Gradient for Markov Coherent Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文参考訳（メタデータ） (2021-03-04T04:11:09Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。 IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文参考訳（メタデータ） (2020-10-12T14:54:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。