論文の概要: Asking for Help Enables Safety Guarantees Without Sacrificing Effectiveness
- arxiv url: http://arxiv.org/abs/2502.14043v1
- Date: Wed, 19 Feb 2025 19:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:09.955645
- Title: Asking for Help Enables Safety Guarantees Without Sacrificing Effectiveness
- Title(参考訳): 安全保証に有効性を与えずに支援を求める
- Authors: Benjamin Plaut, Juan Liévano-Karim, Stuart Russell,
- Abstract要約: 災害を避けるアルゴリズムも高い報奨を保証することを証明している。
これは、一般のMDPに対する最初のノンレグレット保証である。
- 参考スコア(独自算出の注目度): 6.351923157960618
- License:
- Abstract: Most reinforcement learning algorithms with regret guarantees rely on a critical assumption: that all errors are recoverable. Recent work by Plaut et al. discarded this assumption and presented algorithms that avoid "catastrophe" (i.e., irreparable errors) by asking for help. However, they provided only safety guarantees and did not consider reward maximization. We prove that any algorithm that avoids catastrophe in their setting also guarantees high reward (i.e., sublinear regret) in any Markov Decision Process (MDP), including MDPs with irreversible costs. This constitutes the first no-regret guarantee for general MDPs. More broadly, our result may be the first formal proof that it is possible for an agent to obtain high reward while becoming self-sufficient in an unknown, unbounded, and high-stakes environment without causing catastrophe or requiring resets.
- Abstract(参考訳): 後悔の保証のある強化学習アルゴリズムのほとんどは、すべてのエラーが回復可能であるという重要な仮定に依存している。
プラウトらによる最近の研究は、この仮定を捨て、助けを求めることで「カタストロフェ」(すなわち、不可分な誤り)を避けるアルゴリズムを提示した。
しかし、彼らは安全保証のみを提供し、報酬の最大化を考慮しなかった。
我々は,大惨事を回避するアルゴリズムが,いかなるマルコフ決定プロセス(MDP)においても高い報酬(サブ線形後悔)を保証していることを証明した。
これは、一般のMDPに対する最初のノンレグレット保証である。
より広範に、我々の結果は、未知の、非有界で、かつ高利得な環境において、大惨事やリセットを起こさずに、エージェントが自己満足し、高い報酬を得ることができるという最初の公式な証明であるかもしれない。
関連論文リスト
- Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - No-Regret Algorithms for Safe Bayesian Optimization with Monotonicity Constraints [41.04951588017592]
未知の関数 $f$ を $(s,mathbfx)$ という形式の一連の作用に対して逐次最大化する問題を考える。
提案アルゴリズムの修正版では,各$mathbfx$に対応するほぼ最適の$s$を求めるタスクに対して,サブ線形後悔が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:41:26Z) - Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints [34.7178680288326]
制約付きマルコフ決定プロセス(CMDP)では、逆の報酬と制約があり、よく知られた不合理性の結果、任意のアルゴリズムがサブリニア後悔とサブリニア制約違反を達成できない。
非定常的な報酬や制約のあるCMDPでは、非定常性の増加とともに性能がスムーズに低下するアルゴリズムを提供することで、この負の結果が緩和できることが示される。
論文 参考訳(メタデータ) (2024-05-23T09:48:48Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。