論文の概要: Robust Exploratory Stopping under Ambiguity in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.10260v1
- Date: Sat, 11 Oct 2025 15:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.863869
- Title: Robust Exploratory Stopping under Ambiguity in Reinforcement Learning
- Title(参考訳): 強化学習におけるあいまいさ下でのロバストな探索停止
- Authors: Junyan Ye, Hoi Ying Wong, Kyunghyun Park,
- Abstract要約: あいまいさ下での最適停止問題に対する連続時間頑健な強化学習フレームワークの提案と解析を行う。
この枠組みでは、エージェントは、曖昧さの下での堅牢な意思決定と未知の環境に関する学習という、2つの目的によって動機付けられた停止ルールを選択する。
- 参考スコア(独自算出の注目度): 5.400877926079413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and analyze a continuous-time robust reinforcement learning framework for optimal stopping problems under ambiguity. In this framework, an agent chooses a stopping rule motivated by two objectives: robust decision-making under ambiguity and learning about the unknown environment. Here, ambiguity refers to considering multiple probability measures dominated by a reference measure, reflecting the agent's awareness that the reference measure representing her learned belief about the environment would be erroneous. Using the $g$-expectation framework, we reformulate an optimal stopping problem under ambiguity as an entropy-regularized optimal control problem under ambiguity, with Bernoulli distributed controls to incorporate exploration into the stopping rules. We then derive the optimal Bernoulli distributed control characterized by backward stochastic differential equations. Moreover, we establish a policy iteration theorem and implement it as a reinforcement learning algorithm. Numerical experiments demonstrate the convergence and robustness of the proposed algorithm across different levels of ambiguity and exploration.
- Abstract(参考訳): あいまいさ下での最適停止問題に対する連続時間頑健な強化学習フレームワークの提案と解析を行う。
この枠組みでは、エージェントは、曖昧さの下での堅牢な意思決定と未知の環境に関する学習という、2つの目的によって動機付けられた停止ルールを選択する。
ここでは、曖昧さとは、基準尺度が支配する複数の確率測度を考えることであり、環境についての彼女の学習された信念を表す基準測度が誤っているというエージェントの認識を反映している。
我々は、$g$-expectationフレームワークを用いて、アンビグニティの下での最適停止問題を、アンビグニティ下でのエントロピー規則化された最適制御問題として再構成し、ベルヌーイ分散制御を用いて、停止規則に探索を組み込む。
次に、後方確率微分方程式を特徴とする最適ベルヌーイ分布制御を導出する。
さらに,政策反復定理を確立し,強化学習アルゴリズムとして実装する。
数値実験は、提案アルゴリズムのアンビグニティと探索の異なるレベルにおける収束と堅牢性を示す。
関連論文リスト
- Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence [0.562479170374811]
本稿では,期待報酬の最大化と関連する不確実性の最小化に対処するバンディット最適化における新たな問題設定を提案する。
固定信頼と固定最適体制の両方の下で動作可能な統一的メタ予算ゴリトミックフレームワークを提案する。
提案手法は,精度と試料効率の両面で既存手法より優れている。
論文 参考訳(メタデータ) (2025-06-27T14:21:03Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Robust Q-Learning for finite ambiguity sets [2.3020018305241337]
分布的に堅牢なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。
我々のアプローチは、ある基準測度の周りの球のあいまいさ集合を含むよく研究されたケースを越えている。
論文 参考訳(メタデータ) (2024-07-05T05:19:36Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Probabilistic Control and Majorization of Optimal Control [3.2634122554914002]
確率論的制御設計は、有理エージェントが任意の所望の閉ループ系軌道密度をモデル化しようとする原理に基づいている。
本研究では、所望の閉ループ挙動の代替パラメトリゼーションを導入し、密度間の代替近接測度を探索する。
論文 参考訳(メタデータ) (2022-05-06T15:04:12Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。