論文の概要: Ergodic Risk Measures: Towards a Risk-Aware Foundation for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.02945v1
- Date: Fri, 03 Oct 2025 12:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.380025
- Title: Ergodic Risk Measures: Towards a Risk-Aware Foundation for Continual Reinforcement Learning
- Title(参考訳): エルゴード的リスク対策 : 継続的な強化学習のためのリスク意識基盤を目指して
- Authors: Juan Sebastian Rojas, Chi-Guhn Lee,
- Abstract要約: 連続強化学習(Continual RL)は、生涯学習の概念とRLにおける無限適応の形式化を目指している。
これまでのところ、連続RLはリスクニュートラルな意思決定のレンズを通して、ほぼ独占的に探索されてきた。
本稿では,リスク認識型意思決定のレンズによる連続RLの正式な理論的治療について述べる。
- 参考スコア(独自算出の注目度): 7.025709586759656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual reinforcement learning (continual RL) seeks to formalize the notions of lifelong learning and endless adaptation in RL. In particular, the aim of continual RL is to develop RL agents that can maintain a careful balance between retaining useful information and adapting to new situations. To date, continual RL has been explored almost exclusively through the lens of risk-neutral decision-making, in which the agent aims to optimize the expected (or mean) long-run performance. In this work, we present the first formal theoretical treatment of continual RL through the lens of risk-aware decision-making, in which the agent aims to optimize a reward-based measure of long-run performance beyond the mean. In particular, we show that the classical theory of risk measures, widely used as a theoretical foundation in non-continual risk-aware RL, is, in its current form, incompatible with the continual setting. Then, building on this insight, we extend risk measure theory into the continual setting by introducing a new class of ergodic risk measures that are compatible with continual learning. Finally, we provide a case study of risk-aware continual learning, along with empirical results, which show the intuitive appeal and theoretical soundness of ergodic risk measures.
- Abstract(参考訳): 連続強化学習(Continual RL)は、生涯学習の概念とRLにおける無限適応の形式化を目指している。
特に、連続RLの目的は、有用な情報の保持と新しい状況への適応のバランスを慎重に維持できるRLエージェントを開発することである。
現在まで、連続RLはリスク中立的な意思決定のレンズを通してのみ探索されており、エージェントは期待された(または平均的な)長期実行性能を最適化することを目的としている。
本研究は,リスク認識意思決定のレンズを用いて連続RLの形式的理論的処理を行い,エージェントが平均を超える長期性能の報酬ベース尺度を最適化することを目的とする。
特に, リスク尺度の古典的理論は, 非連続的リスク対応RLの理論的基礎として広く用いられているが, 現状では, 連続的な設定とは相容れない。
そして,この知見に基づいて,継続学習と互換性のある新たなエルゴディックリスク尺度を導入することにより,リスク尺度理論を連続的な設定に拡張する。
最後に,人間的リスク尺度の直感的魅力と理論的健全性を示す実験結果とともに,リスク認識型継続的学習のケーススタディを提案する。
関連論文リスト
- Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-03T20:25:41Z) - Diffusion Policies for Risk-Averse Behavior Modeling in Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Risk-Aware Reinforcement Learning through Optimal Transport Theory [4.8951183832371]
本稿では、リスク対応フレームワークを構築するために、最適輸送理論と強化学習(RL)の統合を開拓する。
提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,OT距離によって規定されるリスク制約も尊重する。
我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。
論文 参考訳(メタデータ) (2023-09-12T13:55:01Z) - Extreme Risk Mitigation in Reinforcement Learning using Extreme Value
Theory [10.288413564829579]
リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。
リスクを意識したRL手法は存在するが、リスク回避のレベルは状態-作用値関数の推定の精度に大きく依存している。
本研究では、状態-作用値関数分布によって予測される極端な値の予測を精査することに着目し、非常に稀で危険な事象に直面した場合のRLエージェントのレジリエンスを高めることを提案する。
論文 参考訳(メタデータ) (2023-08-24T18:23:59Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。