論文の概要: Decoupling Time and Risk: Risk-Sensitive Reinforcement Learning with General Discounting
- arxiv url: http://arxiv.org/abs/2602.04131v1
- Date: Wed, 04 Feb 2026 01:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.337256
- Title: Decoupling Time and Risk: Risk-Sensitive Reinforcement Learning with General Discounting
- Title(参考訳): 時間とリスクの疎結合:一般会計によるリスク感応的強化学習
- Authors: Mehrdad Moghimi, Anthony Coache, Hyejin Ku,
- Abstract要約: 本稿では,分散RLにおける将来報酬のフレキシブルディスカウントとリスク対策の最適化を支援する新しいフレームワークを提案する。
以上の結果から, ディスカウントは, より表現力のある時間的・リスク的嗜好プロファイルを抽出する上で, 意思決定上の問題の基礎となるものと考えられる。
- 参考スコア(独自算出の注目度): 2.179313476241343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional reinforcement learning (RL) is a powerful framework increasingly adopted in safety-critical domains for its ability to optimize risk-sensitive objectives. However, the role of the discount factor is often overlooked, as it is typically treated as a fixed parameter of the Markov decision process or tunable hyperparameter, with little consideration of its effect on the learned policy. In the literature, it is well-known that the discounting function plays a major role in characterizing time preferences of an agent, which an exponential discount factor cannot fully capture. Building on this insight, we propose a novel framework that supports flexible discounting of future rewards and optimization of risk measures in distributional RL. We provide a technical analysis of the optimality of our algorithms, show that our multi-horizon extension fixes issues raised with existing methodologies, and validate the robustness of our methods through extensive experiments. Our results highlight that discounting is a cornerstone in decision-making problems for capturing more expressive temporal and risk preferences profiles, with potential implications for real-world safety-critical applications.
- Abstract(参考訳): 分散強化学習(Retributal reinforcement learning, RL)は、リスクに敏感な目標を最適化する能力のために、安全クリティカルな領域にますます採用される強力なフレームワークである。
しかしながら、ディスカウント因子の役割はしばしば見過ごされ、通常はマルコフ決定過程やチューニング可能なハイパーパラメータの固定パラメータとして扱われ、学習ポリシーへの影響はほとんど考慮されない。
文献では、指数的割引係数が完全に捕捉できないエージェントの時間的嗜好を特徴づける要因として、割引関数が重要な役割を果たしていることが知られている。
本稿では, この知見に基づいて, 将来の報酬の柔軟な割引と, 分散RLにおけるリスク対策の最適化を支援する新しい枠組みを提案する。
我々は,アルゴリズムの最適性に関する技術的解析を行い,既存の手法で提起された問題を多次元拡張で修正し,広範囲な実験を通じて手法の堅牢性を検証する。
我々の結果は、ディスカウントが、より表現力のある時間的およびリスク的嗜好プロファイルを捉え、現実の安全に重要なアプリケーションに潜在的に影響を及ぼす決定上の問題の基礎となることを強調している。
関連論文リスト
- Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents [29.698100324454362]
制約付き最適化は強化学習(RL)における競合する目的を扱う共通のフレームワークを提供する
本稿では,最適化された確実性等価量(OCE)を用いて,報酬値と時間とともにステージごとの特性を示すリスク対応制約付きRLの枠組みを提案する。
本フレームワークは,パラメータ化された強ラグランジアン双対性フレームワークにおいて,適切な制約条件下での元の制約問題と正確に一致することを保証している。
論文 参考訳(メタデータ) (2025-10-23T04:33:32Z) - Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning [4.8342038441006805]
静的スペクトルリスク対策(SRM)の最適化のための新しい枠組みを提案する。
我々のアルゴリズムは、さまざまなドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-07-05T04:41:54Z) - Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。
このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。
我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-07T16:31:42Z) - Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。
エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文 参考訳(メタデータ) (2025-02-27T09:56:51Z) - Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。
累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。