Fugu-MT 論文翻訳(概要): Avoiding Catastrophe in Continuous Spaces by Asking for Help

論文の概要: Avoiding Catastrophe in Continuous Spaces by Asking for Help

arxiv url: http://arxiv.org/abs/2402.08062v1
Date: Mon, 12 Feb 2024 21:12:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:28:23.295361
Title: Avoiding Catastrophe in Continuous Spaces by Asking for Help
Title（参考訳）: 助けを求めることで連続空間における災害を避ける
Authors: Benjamin Plaut, Hanlin Zhu, Stuart Russell
Abstract要約: ほとんどの強化学習アルゴリズムは、公式な後悔の保証付きであり、すべての誤りは可逆的であり、基本的にあらゆる選択肢を試すことに依存していると仮定する。本稿では,大惨事の可能性を最小化することが目的である文脈的盗賊問題の変種を提案する。時間的地平線が大きくなるにつれて,メンターの双方が0に近づいたことを後悔するアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 8.857753105849662
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most reinforcement learning algorithms with formal regret guarantees assume all mistakes are reversible and rely on essentially trying all possible options. This approach leads to poor outcomes when some mistakes are irreparable or even catastrophic. We propose a variant of the contextual bandit problem where the goal is to minimize the chance of catastrophe. Specifically, we assume that the payoff each round represents the chance of avoiding catastrophe that round, and try to maximize the product of payoffs (the overall chance of avoiding catastrophe). To give the agent some chance of success, we allow a limited number of queries to a mentor and assume a Lipschitz continuous payoff function. We present an algorithm whose regret and rate of querying the mentor both approach 0 as the time horizon grows, assuming a continuous 1D state space and a relatively "simple" payoff function. We also provide a matching lower bound: without the simplicity assumption: any algorithm either constantly asks for help or is nearly guaranteed to cause catastrophe. Finally, we identify the key obstacle to generalizing our algorithm to a multi-dimensional state space.
Abstract（参考訳）: 公式な後悔の保証を持つ強化学習アルゴリズムの多くは、すべての誤りが可逆であると仮定し、本質的にすべての選択肢を試すことに依存している。このアプローチは、いくつかのミスが許容できない、あるいは破滅的な結果をもたらす。そこで本稿では,災害発生の可能性を最小限に抑えることを目的とした,コンテキストバンディット問題の変種を提案する。具体的には、各ラウンドのペイオフは、そのラウンドのカタストロフィを避けるチャンスを表し、そのラウンドの成果を最大化しようとする(大惨事を避ける全体的な可能性)。エージェントが成功する確率を与えるため、メンターに対して限られた数のクエリを許容し、リプシッツの継続的な支払い関数を仮定する。本稿では,連続的な1次元状態空間と比較的「単純な」ペイオフ関数を仮定し,時間軸が成長するにつれてメンターが0に近づくことを後悔するアルゴリズムを提案する。単純さの前提なしに、任意のアルゴリズムが常にヘルプを要求するか、大惨事を引き起こすようにほぼ保証されています。最後に,アルゴリズムを多次元状態空間に一般化するための重要な障害を特定する。

関連論文リスト

No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文参考訳（メタデータ） (2025-06-16T08:42:31Z)
Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文参考訳（メタデータ） (2024-06-06T16:18:20Z)
Online Learning with Unknown Constraints [10.263431543520452]
本稿では,学習者が行う行動の順序が,各ラウンドにおいて未知の安全制約に従わなければならないというオンライン学習の問題点を考察する。目的は、各ラウンドの安全制約を高い確率で満たしながら、後ろ向きのベストセーフアクションに対する後悔を最小限に抑えることである。
論文参考訳（メタデータ） (2024-03-06T20:23:59Z)
Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文参考訳（メタデータ） (2024-02-24T09:47:46Z)
The Risks of Recourse in Binary Classification [10.067421338825545]
人口レベルでは,アルゴリズムによる談話の提供が有益か有害かを検討した。会話を提供することが有害であることが判明した、もっともらしいシナリオがたくさんあることが分かりました。結論として,現在のアルゴリズム・リコースの概念は確実な有用性を持たず,再考が必要である。
論文参考訳（メタデータ） (2023-06-01T09:46:43Z)
Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文参考訳（メタデータ） (2023-03-15T21:30:14Z)
You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文参考訳（メタデータ） (2022-10-17T09:00:11Z)
Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文参考訳（メタデータ） (2021-10-29T16:52:45Z)
Can Q-Learning be Improved with Advice? [27.24260290748049]
本稿では,マルコフ決定過程(MDP)のオンライン学習において,後悔に対する最悪の下限を回避できるかどうかを論じる。最適$Q$-値関数の予測が蒸留と呼ばれる合理的に弱い条件を満たす場合、状態-作用対の集合を、その予測が極端に不正確な状態-作用対の集合に置き換えることで、後悔境界を改善することができることを示す。私たちの研究は、キャッシュやスケジューリングといった単純なオンライン問題に重点を置いていた予測を伴うアルゴリズムに関する最近の研究を、強化学習のより複雑で一般的な問題へと拡張しています。
論文参考訳（メタデータ） (2021-10-25T15:44:20Z)
Model-Free Online Learning in Unknown Sequential Decision Making Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文参考訳（メタデータ） (2021-03-08T04:03:24Z)
Online Learning with Primary and Secondary Losses [29.540528603828722]
初等・二次的損失を伴うオンライン学習の課題について検討する。第一の損失に関して、低い後悔を達成するために“専門家のアドバイス”を組み合わせることはできますか?
論文参考訳（メタデータ） (2020-10-27T23:50:27Z)
Online non-convex optimization with imperfect feedback [33.80530308979131]
非損失を伴うオンライン学習の問題を考える。フィードバックの観点からは、学習者が各段階における損失関数の不正確なモデル(または構成)を観測すると仮定する。本稿では,二元平均化に基づく混合戦略学習政策を提案する。
論文参考訳（メタデータ） (2020-10-16T16:53:13Z)
Policy Gradient for Continuing Tasks in Non-stationary Markov Decision Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文参考訳（メタデータ） (2020-10-16T15:15:42Z)
Excursion Search for Constrained Bayesian Optimization under a Limited Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文参考訳（メタデータ） (2020-05-15T09:54:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。