論文の概要: There Is No Turning Back: A Self-Supervised Approach for
Reversibility-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.04480v1
- Date: Tue, 8 Jun 2021 16:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 21:00:57.067373
- Title: There Is No Turning Back: A Self-Supervised Approach for
Reversibility-Aware Reinforcement Learning
- Title(参考訳): 振り返らない:可逆性を考慮した強化学習のための自己監督型アプローチ
- Authors: Nathan Grinsztajn, Johan Ferret, Olivier Pietquin, Philippe Preux,
Matthieu Geist
- Abstract要約: 近似可逆性は単純なサロゲートタスクによって学習可能であることを示す。
我々は,RLエージェントの可逆性を取り入れた2つの戦略,探索のための1つの戦略(RAE)と制御のための1つの戦略(RAC)を提案する。
- 参考スコア(独自算出の注目度): 40.399003951515645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose to learn to distinguish reversible from irreversible actions for
better informed decision-making in Reinforcement Learning (RL). From
theoretical considerations, we show that approximate reversibility can be
learned through a simple surrogate task: ranking randomly sampled trajectory
events in chronological order. Intuitively, pairs of events that are always
observed in the same order are likely to be separated by an irreversible
sequence of actions. Conveniently, learning the temporal order of events can be
done in a fully self-supervised way, which we use to estimate the reversibility
of actions from experience, without any priors. We propose two different
strategies that incorporate reversibility in RL agents, one strategy for
exploration (RAE) and one strategy for control (RAC). We demonstrate the
potential of reversibility-aware agents in several environments, including the
challenging Sokoban game. In synthetic tasks, we show that we can learn control
policies that never fail and reduce to zero the side-effects of interactions,
even without access to the reward function.
- Abstract(参考訳): 我々は,強化学習(RL)において,可逆的行動と不可逆的行動との区別を学習し,情報的意思決定を改善することを提案する。
理論的考察から, ランダムにサンプリングされた軌道イベントを時系列順にランク付けする, 単純なサロゲートタスクにより, 近似可逆性を学習できることが示唆された。
直感的には、同じ順序で常に観測される事象のペアは、不可逆的な一連の行動によって分離される。
同時に、イベントの時間的順序を学習することは、前もって経験から行動の可逆性を推定するために、完全に自己管理的な方法で行うことができる。
我々は,rlエージェントに可逆性を含む2つの異なる戦略,1つの探索戦略(rae)と1つの制御戦略(rac)を提案する。
本稿では,ソコバンゲームを含む,可逆性を考慮したエージェントの可能性を示す。
合成タスクでは、報酬関数にアクセスしなくても、決して失敗せず、相互作用の副作用をゼロにする制御ポリシーを学習できることが示される。
関連論文リスト
- Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。