論文の概要: Avoiding Catastrophe in Continuous Spaces by Asking for Help
- arxiv url: http://arxiv.org/abs/2402.08062v1
- Date: Mon, 12 Feb 2024 21:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:28:23.295361
- Title: Avoiding Catastrophe in Continuous Spaces by Asking for Help
- Title(参考訳): 助けを求めることで連続空間における災害を避ける
- Authors: Benjamin Plaut, Hanlin Zhu, Stuart Russell
- Abstract要約: ほとんどの強化学習アルゴリズムは、公式な後悔の保証付きであり、すべての誤りは可逆的であり、基本的にあらゆる選択肢を試すことに依存していると仮定する。
本稿では,大惨事の可能性を最小化することが目的である文脈的盗賊問題の変種を提案する。
時間的地平線が大きくなるにつれて,メンターの双方が0に近づいたことを後悔するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.857753105849662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most reinforcement learning algorithms with formal regret guarantees assume
all mistakes are reversible and rely on essentially trying all possible
options. This approach leads to poor outcomes when some mistakes are
irreparable or even catastrophic. We propose a variant of the contextual bandit
problem where the goal is to minimize the chance of catastrophe. Specifically,
we assume that the payoff each round represents the chance of avoiding
catastrophe that round, and try to maximize the product of payoffs (the overall
chance of avoiding catastrophe). To give the agent some chance of success, we
allow a limited number of queries to a mentor and assume a Lipschitz continuous
payoff function. We present an algorithm whose regret and rate of querying the
mentor both approach 0 as the time horizon grows, assuming a continuous 1D
state space and a relatively "simple" payoff function. We also provide a
matching lower bound: without the simplicity assumption: any algorithm either
constantly asks for help or is nearly guaranteed to cause catastrophe. Finally,
we identify the key obstacle to generalizing our algorithm to a
multi-dimensional state space.
- Abstract(参考訳): 公式な後悔の保証を持つ強化学習アルゴリズムの多くは、すべての誤りが可逆であると仮定し、本質的にすべての選択肢を試すことに依存している。
このアプローチは、いくつかのミスが許容できない、あるいは破滅的な結果をもたらす。
そこで本稿では,災害発生の可能性を最小限に抑えることを目的とした,コンテキストバンディット問題の変種を提案する。
具体的には、各ラウンドのペイオフは、そのラウンドのカタストロフィを避けるチャンスを表し、そのラウンドの成果を最大化しようとする(大惨事を避ける全体的な可能性)。
エージェントが成功する確率を与えるため、メンターに対して限られた数のクエリを許容し、リプシッツの継続的な支払い関数を仮定する。
本稿では,連続的な1次元状態空間と比較的「単純な」ペイオフ関数を仮定し,時間軸が成長するにつれてメンターが0に近づくことを後悔するアルゴリズムを提案する。
単純さの前提なしに、任意のアルゴリズムが常にヘルプを要求するか、大惨事を引き起こすようにほぼ保証されています。
最後に,アルゴリズムを多次元状態空間に一般化するための重要な障害を特定する。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Online Learning with Unknown Constraints [10.263431543520452]
本稿では,学習者が行う行動の順序が,各ラウンドにおいて未知の安全制約に従わなければならないというオンライン学習の問題点を考察する。
目的は、各ラウンドの安全制約を高い確率で満たしながら、後ろ向きのベストセーフアクションに対する後悔を最小限に抑えることである。
論文 参考訳(メタデータ) (2024-03-06T20:23:59Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - The Risks of Recourse in Binary Classification [10.067421338825545]
人口レベルでは,アルゴリズムによる談話の提供が有益か有害かを検討した。
会話を提供することが有害であることが判明した、もっともらしいシナリオがたくさんあることが分かりました。
結論として,現在のアルゴリズム・リコースの概念は確実な有用性を持たず,再考が必要である。
論文 参考訳(メタデータ) (2023-06-01T09:46:43Z) - Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。
これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。
本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文 参考訳(メタデータ) (2023-03-15T21:30:14Z) - Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Online non-convex optimization with imperfect feedback [33.80530308979131]
非損失を伴うオンライン学習の問題を考える。
フィードバックの観点からは、学習者が各段階における損失関数の不正確なモデル(または構成)を観測すると仮定する。
本稿では,二元平均化に基づく混合戦略学習政策を提案する。
論文 参考訳(メタデータ) (2020-10-16T16:53:13Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。