論文の概要: Learning to Be Cautious
- arxiv url: http://arxiv.org/abs/2110.15907v1
- Date: Fri, 29 Oct 2021 16:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:25:36.769186
- Title: Learning to Be Cautious
- Title(参考訳): 注意すべきことを学ぶ
- Authors: Montaser Mohammedalamen, Dustin Morrill, Alexander Sieusahai, Yash
Satsangi, Michael Bowling
- Abstract要約: 強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
- 参考スコア(独自算出の注目度): 71.9871661858886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in the field of reinforcement learning is to develop agents
that behave cautiously in novel situations. It is generally impossible to
anticipate all situations that an autonomous system may face or what behavior
would best avoid bad outcomes. An agent that could learn to be cautious would
overcome this challenge by discovering for itself when and how to behave
cautiously. In contrast, current approaches typically embed task-specific
safety information or explicit cautious behaviors into the system, which is
error-prone and imposes extra burdens on practitioners. In this paper, we
present both a sequence of tasks where cautious behavior becomes increasingly
non-obvious, as well as an algorithm to demonstrate that it is possible for a
system to \emph{learn} to be cautious. The essential features of our algorithm
are that it characterizes reward function uncertainty without task-specific
safety information and uses this uncertainty to construct a robust policy.
Specifically, we construct robust policies with a $k$-of-$N$ counterfactual
regret minimization (CFR) subroutine given a learned reward function
uncertainty represented by a neural network ensemble belief. These policies
exhibit caution in each of our tasks without any task-specific safety tuning.
- Abstract(参考訳): 強化学習の分野における鍵となる課題は、新しい状況において慎重に振る舞うエージェントを開発することである。
一般的に、自律システムが直面するであろうすべての状況や、悪い結果を避ける最善の行動を予測することは不可能である。
慎重に行動できることを学べるエージェントは、いつどのように慎重に行動するかを発見することで、この課題を克服する。
対照的に、現在のアプローチでは一般的に、タスク固有の安全情報や明示的な慎重な行動がシステムに組み込まれています。
本稿では,注意行動がますます非観察的になるタスクのシーケンスと,システムが注意的であることを証明するアルゴリズムを提案する。
このアルゴリズムの重要な特徴は、タスク固有の安全情報なしで報酬関数の不確かさを特徴付け、この不確実性を利用して堅牢なポリシーを構築することである。
具体的には、ニューラルネットワークのアンサンブル信念で表される学習報酬関数の不確かさを与えられたCFRサブルーチンを用いて、$k$-of-N$のロバストなポリシーを構築する。
これらの方針は、タスク固有の安全チューニングなしで、各タスクに注意を払っている。
関連論文リスト
- Towards Interpretable Reinforcement Learning with Constrained Normalizing Flow Policies [5.6872893893453105]
強化学習ポリシーは一般にブラックボックスニューラルネットワークによって表現される。
本稿では,フローポリシを解釈可能かつ安全な構成ポリシーモデルとして,制約付き正規化を提案する。
論文 参考訳(メタデータ) (2024-05-02T11:40:15Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Distributional Actor-Critic Ensemble for Uncertainty-Aware Continuous
Control [13.767812547998735]
不確実性定量化は、現実世界のアプリケーションにおける機械学習における中心的な課題の1つである。
不確かさの解消と評価を同時に行うことは、エージェントの最終的なパフォーマンスを改善するチャンスである。
連続制御タスクに対する不確実性を考慮した強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-27T18:11:04Z) - Safer Reinforcement Learning through Transferable Instinct Networks [6.09170287691728]
我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
論文 参考訳(メタデータ) (2021-07-14T13:22:04Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。