論文の概要: CAT: Caution Aware Transfer in Reinforcement Learning via Distributional Risk
- arxiv url: http://arxiv.org/abs/2408.08812v1
- Date: Fri, 16 Aug 2024 15:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 14:53:53.796068
- Title: CAT: Caution Aware Transfer in Reinforcement Learning via Distributional Risk
- Title(参考訳): CAT:分散リスクによる強化学習における注意力の伝達
- Authors: Mohamad Fares El Hajj Chehade, Amrit Singh Bedi, Amy Zhang, Hao Zhu,
- Abstract要約: 本稿では,CAT(Caution-Aware Transfer Learning)フレームワークを紹介する。
従来のアプローチとは異なり、我々は「注意」をより一般化され包括的なリスクの概念として定義する。
我々の中核的なイノベーションは、報酬の返済の重み付けの総和を最適化することであり、移行プロセス中における国家行動の占有度に基づく注意が必要である。
- 参考スコア(独自算出の注目度): 19.698719925388513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning in reinforcement learning (RL) has become a pivotal strategy for improving data efficiency in new, unseen tasks by utilizing knowledge from previously learned tasks. This approach is especially beneficial in real-world deployment scenarios where computational resources are constrained and agents must adapt rapidly to novel environments. However, current state-of-the-art methods often fall short in ensuring safety during the transfer process, particularly when unforeseen risks emerge in the deployment phase. In this work, we address these limitations by introducing a novel Caution-Aware Transfer Learning (CAT) framework. Unlike traditional approaches that limit risk considerations to mean-variance, we define "caution" as a more generalized and comprehensive notion of risk. Our core innovation lies in optimizing a weighted sum of reward return and caution-based on state-action occupancy measures-during the transfer process, allowing for a rich representation of diverse risk factors. To the best of our knowledge, this is the first work to explore the optimization of such a generalized risk notion within the context of transfer RL. Our contributions are threefold: (1) We propose a Caution-Aware Transfer (CAT) framework that evaluates source policies within the test environment and constructs a new policy that balances reward maximization and caution. (2) We derive theoretical sub-optimality bounds for our method, providing rigorous guarantees of its efficacy. (3) We empirically validate CAT, demonstrating that it consistently outperforms existing methods by delivering safer policies under varying risk conditions in the test tasks.
- Abstract(参考訳): 強化学習(RL)における伝達学習は、それまでの学習課題からの知識を活用して、新しい目に見えないタスクにおけるデータ効率を改善するための重要な戦略となっている。
このアプローチは、計算リソースが制約され、エージェントが新しい環境に迅速に適応しなければならない実世界のデプロイメントシナリオで特に有用である。
しかしながら、現在の最先端の手法は、特に予期せぬリスクがデプロイメントフェーズに出現した場合に、転送プロセス中の安全性を確保するために不足することが多い。
本稿では,CAT(Caution-Aware Transfer Learning)フレームワークを導入することで,これらの制約に対処する。
リスク考慮を平均分散に限定する従来のアプローチとは異なり、我々は「注意」をより一般化され包括的なリスクの概念として定義する。
当社の中核的なイノベーションは、トランスファープロセス中における国家行動占有度に基づく報酬リターンと注意の重み付けの合計を最適化することであり、多様なリスク要因の豊かな表現を可能にします。
我々の知る限りでは、転送RLの文脈内でそのような一般化されたリスク概念の最適化を探求する最初の研究である。
1)テスト環境内のソースポリシを評価し,報酬の最大化と警告のバランスをとるための新たなポリシを構築する,Caution-Aware Transfer(CAT)フレームワークを提案する。
2) 本手法の理論的準最適境界を導出し, その有効性について厳密な保証を与える。
3) CATを実証的に検証し, テストタスクにおいて, リスク条件の異なる安全政策を提供することにより, 既存の手法を一貫して上回っていることを示す。
関連論文リスト
- Optimal Transport-Assisted Risk-Sensitive Q-Learning [4.14360329494344]
本稿では,エージェントの安全性を高めるために最適な輸送理論を利用するリスク感受性Q-ラーニングアルゴリズムを提案する。
提案したアルゴリズムをGridworld環境で検証する。
論文 参考訳(メタデータ) (2024-06-17T17:32:25Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Aware Transfer in Reinforcement Learning using Successor Features [16.328601804662657]
リスク対応後継機能(RaSF)が,実践的な強化学習フレームワークにシームレスに統合されていることを示す。
RaSFは、学習したポリシーのリスクを考慮すると、SFなどの代替手法よりも優れています。
論文 参考訳(メタデータ) (2021-05-28T22:22:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。