論文の概要: Avoiding Catastrophe in Online Learning by Asking for Help
- arxiv url: http://arxiv.org/abs/2402.08062v3
- Date: Fri, 04 Oct 2024 15:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:42.604790
- Title: Avoiding Catastrophe in Online Learning by Asking for Help
- Title(参考訳): 支援を求めるオンライン学習におけるカタストロフィ回避
- Authors: Benjamin Plaut, Hanlin Zhu, Stuart Russell,
- Abstract要約: 本稿では,災害の可能性を最小化するオンライン学習問題を提案する。
時間的地平線が大きくなるにつれて,メンターの双方が0に近づいたことを後悔するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.881265948305421
- License:
- Abstract: Most learning algorithms with formal regret guarantees assume that no mistake is irreparable and essentially rely on trying all possible behaviors. This approach is problematic when some mistakes are \emph{catastrophic}, i.e., irreparable. We propose an online learning problem where the goal is to minimize the chance of catastrophe. Specifically, we assume that the payoff in each round represents the chance of avoiding catastrophe that round and aim to maximize the product of payoffs (the overall chance of avoiding catastrophe) while allowing a limited number of queries to a mentor. We first show that in general, any algorithm either constantly queries the mentor or is nearly guaranteed to cause catastrophe. However, in settings where the mentor policy class is learnable in the standard online learning model, we provide an algorithm whose regret and rate of querying the mentor both approach 0 as the time horizon grows. Conceptually, if a policy class is learnable in the absence of catastrophic risk, it is learnable in the presence of catastrophic risk if the agent can ask for help.
- Abstract(参考訳): 公式な後悔の保証を持つほとんどの学習アルゴリズムは、いかなる間違いも不可分であり、基本的にはあらゆる可能な行動を試すことに依存していると仮定する。
このアプローチは、いくつかの誤りが 'emph{catastrophic}'、すなわち不可分である場合に問題となる。
本稿では,災害の可能性を最小化するオンライン学習問題を提案する。
具体的には、各ラウンドにおけるペイオフは、そのラウンドにおけるカタストロフィを回避する可能性を示し、メンターに限られた数のクエリを許容しながら、そのラウンドにおけるペイオフ(カタストロフィを回避する全体的な可能性)の産物を最大化することを目的としていると仮定する。
まず、アルゴリズムが常にメンターに問い合わせるか、大惨事を引き起こすことがほぼ保証されているかを示す。
しかし、標準的なオンライン学習モデルでは、メンターポリシークラスが学習可能な設定では、時間的地平線が大きくなるにつれて、メンターの双方が0に近づいたことを後悔する確率と頻度のアルゴリズムが提供される。
概念的には、ある政策クラスが破滅的なリスクがなければ学べるなら、エージェントが助けを求めることができれば破滅的なリスクがある場合には学習できる。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Online Learning with Unknown Constraints [10.263431543520452]
本稿では,学習者が行う行動の順序が,各ラウンドにおいて未知の安全制約に従わなければならないというオンライン学習の問題点を考察する。
目的は、各ラウンドの安全制約を高い確率で満たしながら、後ろ向きのベストセーフアクションに対する後悔を最小限に抑えることである。
論文 参考訳(メタデータ) (2024-03-06T20:23:59Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - The Risks of Recourse in Binary Classification [10.067421338825545]
人口レベルでは,アルゴリズムによる談話の提供が有益か有害かを検討した。
会話を提供することが有害であることが判明した、もっともらしいシナリオがたくさんあることが分かりました。
結論として,現在のアルゴリズム・リコースの概念は確実な有用性を持たず,再考が必要である。
論文 参考訳(メタデータ) (2023-06-01T09:46:43Z) - Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。
これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。
本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文 参考訳(メタデータ) (2023-03-15T21:30:14Z) - Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Online non-convex optimization with imperfect feedback [33.80530308979131]
非損失を伴うオンライン学習の問題を考える。
フィードバックの観点からは、学習者が各段階における損失関数の不正確なモデル(または構成)を観測すると仮定する。
本稿では,二元平均化に基づく混合戦略学習政策を提案する。
論文 参考訳(メタデータ) (2020-10-16T16:53:13Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。