Fugu-MT 論文翻訳(概要): Uncertainty-aware Distributional Offline Reinforcement Learning

論文の概要: Uncertainty-aware Distributional Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.17646v1
Date: Tue, 26 Mar 2024 12:28:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 15:27:36.606278
Title: Uncertainty-aware Distributional Offline Reinforcement Learning
Title（参考訳）: 不確実性を考慮したオフライン強化学習
Authors: Xiaocong Chen, Siyu Wang, Tong Yu, Lina Yao,
Abstract要約: オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
参考スコア（独自算出の注目度）: 26.34178581703107
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning (RL) presents distinct challenges as it relies solely on observational data. A central concern in this context is ensuring the safety of the learned policy by quantifying uncertainties associated with various actions and environmental stochasticity. Traditional approaches primarily emphasize mitigating epistemic uncertainty by learning risk-averse policies, often overlooking environmental stochasticity. In this study, we propose an uncertainty-aware distributional offline RL method to simultaneously address both epistemic uncertainty and environmental stochasticity. We propose a model-free offline RL algorithm capable of learning risk-averse policies and characterizing the entire distribution of discounted cumulative rewards, as opposed to merely maximizing the expected value of accumulated discounted returns. Our method is rigorously evaluated through comprehensive experiments in both risk-sensitive and risk-neutral benchmarks, demonstrating its superior performance.
Abstract（参考訳）: オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。この文脈における中心的な関心事は、様々な行動や環境確率性に関連する不確実性を定量化し、学習政策の安全性を確保することである。伝統的なアプローチは、しばしば環境確率性を見越して、リスクと逆の政策を学ぶことによって、疫学の不確実性を緩和することを強調する。本研究では,不確実性と環境確率性の両方に同時に対処する,不確実性を考慮したオフラインRL法を提案する。本稿では,リスク回避ポリシーを学習し,累積累積報酬の分布全体を特徴付けることができるモデルフリーオフラインRLアルゴリズムを提案する。本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。

関連論文リスト

Risk-Sensitive Exponential Actor Critic [8.650002078377485]
リスクに敏感な指数的アクター批判(RSEAC)は,既存のアプローチに比べて数値的に安定な更新をもたらすことを示す。 rsEACは、MuJoCoにおけるリスクに敏感な継続的タスクのバリエーションに挑戦する上で、リスクに敏感なポリシを確実に学習する。
論文参考訳（メタデータ） (2026-02-06T21:23:43Z)
Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning [4.8342038441006805]
静的スペクトルリスク対策(SRM)の最適化のための新しい枠組みを提案する。我々のアルゴリズムは、さまざまなドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法より一貫して優れています。
論文参考訳（メタデータ） (2025-07-05T04:41:54Z)
Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-03T20:25:41Z)
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文参考訳（メタデータ） (2024-07-10T13:09:52Z)
Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文参考訳（メタデータ） (2024-05-23T16:16:58Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文参考訳（メタデータ） (2023-09-11T16:10:58Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Is Risk-Sensitive Reinforcement Learning Properly Resolved? [54.00107408956307]
本稿では,RSRL問題に対するポリシー改善のための新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文参考訳（メタデータ） (2023-07-02T11:47:21Z)
One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文参考訳（メタデータ） (2022-11-30T21:24:11Z)
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文参考訳（メタデータ） (2022-09-18T22:03:55Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文参考訳（メタデータ） (2020-06-23T17:43:44Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。