論文の概要: Corruption-robust exploration in episodic reinforcement learning
- arxiv url: http://arxiv.org/abs/1911.08689v4
- Date: Wed, 1 Nov 2023 03:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 18:53:13.027916
- Title: Corruption-robust exploration in episodic reinforcement learning
- Title(参考訳): エピソード強化学習における破壊・破壊探索
- Authors: Thodoris Lykouris, Max Simchowitz, Aleksandrs Slivkins, Wen Sun
- Abstract要約: 本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
- 参考スコア(独自算出の注目度): 76.19192549843727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the study of multi-stage episodic reinforcement learning under
adversarial corruptions in both the rewards and the transition probabilities of
the underlying system extending recent results for the special case of
stochastic bandits. We provide a framework which modifies the aggressive
exploration enjoyed by existing reinforcement learning approaches based on
"optimism in the face of uncertainty", by complementing them with principles
from "action elimination". Importantly, our framework circumvents the major
challenges posed by naively applying action elimination in the RL setting, as
formalized by a lower bound we demonstrate. Our framework yields efficient
algorithms which (a) attain near-optimal regret in the absence of corruptions
and (b) adapt to unknown levels corruption, enjoying regret guarantees which
degrade gracefully in the total corruption encountered. To showcase the
generality of our approach, we derive results for both tabular settings (where
states and actions are finite) as well as linear-function-approximation
settings (where the dynamics and rewards admit a linear underlying
representation). Notably, our work provides the first sublinear regret
guarantee which accommodates any deviation from purely i.i.d. transitions in
the bandit-feedback model for episodic reinforcement learning.
- Abstract(参考訳): 本研究は, 確率的バンディットの特殊症例に対する近年の成績を延ばし, 報酬とシステム移行可能性の両方において, 逆行的汚職下での多段階強化学習を創始する。
我々は,「不確実性に直面した最適主義」に基づいて,既存の強化学習アプローチによる積極的な探索を「行動排除」の原則で補完する枠組みを提供する。
重要なことは、我々のフレームワークは、我々が示している下限によって定式化されているように、RL設定に行動排除を鼻で適用することによって生じる大きな課題を回避している。
我々のフレームワークは効率的なアルゴリズムを
(a)腐敗の欠如により、ほぼ最適の後悔を得る
b) 未知のレベルの腐敗に適応し、遭遇した全体の腐敗において優雅に低下する後悔の保証を享受する。
このアプローチの汎用性を示すために、表的な設定(状態とアクションは有限)と線形関数近似設定(ダイナミクスと報酬が線形基底表現を許容する)の両方の結果を導出する。
特に,本研究は,根治的強化学習のためのBandit-Feedbackモデルにおける純粋I.d.遷移の偏差を許容する,最初のサブ線形後悔保証を提供する。
関連論文リスト
- PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling [36.481053480535515]
PIPER: Hindsight Relabeling を用いたPrimitive-Informed Preferenceに基づく階層型強化学習について紹介する。
我々の緩和に基づくアプローチは、既存の階層的アプローチに共通する非定常性を緩和することができる。
実用不可能なサブゴール予測の防止と退化解の回避のために,プリミティブインフォームド正規化を提案する。
論文 参考訳(メタデータ) (2024-04-20T17:06:00Z) - Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Robust Reinforcement Learning with Distributional Risk-averse
formulation [1.2891210250935146]
リスク・アバースの近似式を用いて,ロバスト強化学習を$Phi$-divergenceで制約する。
古典的強化学習の定式化は、目的の標準偏差ペナル化を用いて堅牢化できることを示す。
論文 参考訳(メタデータ) (2022-06-14T13:33:58Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Learning Robust Feedback Policies from Demonstrations [9.34612743192798]
閉ループ性能と境界(逆)摂動に対する堅牢性に関する実証可能な保証を示すフィードバック制御ポリシーを学ぶための新しいフレームワークを提案し、分析する。
これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。
論文 参考訳(メタデータ) (2021-03-30T19:11:05Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。