論文の概要: Offline Reinforcement Learning as Anti-Exploration
- arxiv url: http://arxiv.org/abs/2106.06431v1
- Date: Fri, 11 Jun 2021 14:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:08:45.745816
- Title: Offline Reinforcement Learning as Anti-Exploration
- Title(参考訳): 反爆発としてのオフライン強化学習
- Authors: Shideh Rezaeifar, Robert Dadashi, Nino Vieillard, L\'eonard Hussenot,
Olivier Bachem, Olivier Pietquin, Matthieu Geist
- Abstract要約: 我々は、新たなオフラインRLエージェントを設計するためのボーナスベースの探索に関する文献から着想を得た。
中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。
我々のエージェントは、連続的な制御ロコモーションと操作タスクのセットにおいて、最先端技術と競合していることを示す。
- 参考スコア(独自算出の注目度): 49.72457136766916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) aims at learning an optimal control from
a fixed dataset, without interactions with the system. An agent in this setting
should avoid selecting actions whose consequences cannot be predicted from the
data. This is the converse of exploration in RL, which favors such actions. We
thus take inspiration from the literature on bonus-based exploration to design
a new offline RL agent. The core idea is to subtract a prediction-based
exploration bonus from the reward, instead of adding it for exploration. This
allows the policy to stay close to the support of the dataset. We connect this
approach to a more common regularization of the learned policy towards the
data. Instantiated with a bonus based on the prediction error of a variational
autoencoder, we show that our agent is competitive with the state of the art on
a set of continuous control locomotion and manipulation tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、システムと対話することなく、固定データセットから最適な制御を学ぶことを目的としている。
この設定のエージェントは、データから結果が予測できないアクションを選択することを避けるべきです。
これは、そのような行動を好むRLにおける探索の逆である。
そこで我々は,新しいオフラインrlエージェントの設計において,ボーナスに基づく探索に関する文献から着想を得た。
中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。
これにより、ポリシーはデータセットのサポートに近づき続けることができる。
このアプローチを、データに対する学習ポリシーのより一般的な正規化と結びつけます。
可変オートエンコーダの予測誤差に基づいてボーナスを付与することにより, エージェントは連続的な制御ロコモーションと操作タスクのセット上で, 技術と競合することを示す。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Align Your Intents: Offline Imitation Learning via Optimal Transport [3.1728695158666396]
模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れていることを報告した。
論文 参考訳(メタデータ) (2024-02-20T14:24:00Z) - Survival Instinct in Offline Reinforcement Learning [28.319886852612672]
報酬ラベルをトレーニングしても、オフラインのRLは最適で安全なポリシを生成することができる。
この驚くべき性質は、オフラインRLアルゴリズムにおける悲観的概念と、一般的なデータ収集手法におけるある種の暗黙的偏見の相互作用に起因することを実証する。
我々の経験的および理論的結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを示唆している。
論文 参考訳(メタデータ) (2023-06-05T22:15:39Z) - Offline Reinforcement Learning for Human-Guided Human-Machine
Interaction with Private Information [110.42866062614912]
個人情報を含む人間と機械の相互作用について検討する。
本ゲームでは,オフライン強化学習(RL)に注目した。
そこで我々は,新たな識別結果を開発し,それを用いて新たな非政治評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-23T06:26:44Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。