論文の概要: Does Zero-Shot Reinforcement Learning Exist?
- arxiv url: http://arxiv.org/abs/2209.14935v1
- Date: Thu, 29 Sep 2022 16:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:37:16.695471
- Title: Does Zero-Shot Reinforcement Learning Exist?
- Title(参考訳): ゼロショット強化学習は存在するか?
- Authors: Ahmed Touati, J\'er\'emy Rapin, Yann Ollivier
- Abstract要約: ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。
これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。
近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
- 参考スコア(独自算出の注目度): 11.741744003560095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A zero-shot RL agent is an agent that can solve any RL task in a given
environment, instantly with no additional planning or learning, after an
initial reward-free learning phase. This marks a shift from the reward-centric
RL paradigm towards "controllable" agents that can follow arbitrary
instructions in an environment. Current RL agents can solve families of related
tasks at best, or require planning anew for each task. Strategies for
approximate zero-shot RL ave been suggested using successor features (SFs)
[BBQ+ 18] or forward-backward (FB) representations [TO21], but testing has been
limited.
After clarifying the relationships between these schemes, we introduce
improved losses and new SF models, and test the viability of zero-shot RL
schemes systematically on tasks from the Unsupervised RL benchmark [LYL+21]. To
disentangle universal representation learning from exploration, we work in an
offline setting and repeat the tests on several existing replay buffers.
SFs appear to suffer from the choice of the elementary state features. SFs
with Laplacian eigenfunctions do well, while SFs based on auto-encoders,
inverse curiosity, transition models, low-rank transition matrix, contrastive
learning, or diversity (APS), perform unconsistently. In contrast, FB
representations jointly learn the elementary and successor features from a
single, principled criterion. They perform best and consistently across the
board, reaching 85% of supervised RL performance with a good replay buffer, in
a zero-shot manner.
- Abstract(参考訳): ゼロショットRLエージェントは、初期報酬のない学習フェーズの後、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。
これは、報酬中心のRLパラダイムから、環境内の任意の命令に従う「制御可能な」エージェントへのシフトを表している。
現在のrlエージェントは、関連するタスクのファミリーを最善の方法で解決するか、あるいは各タスクの計画が必要となる。
後続特徴(SF) [BBQ+18] やフォワードバック(FB) 表現 [TO21] を用いて、近似ゼロショットRLの戦略が提案されているが、試験は限られている。
これらのスキーム間の関係を明らかにした後、改良された損失モデルと新しいSFモデルを導入し、教師なしRLベンチマーク[LYL+21]のタスクでゼロショットRLスキームを体系的に実行可能であることをテストする。
探索から普遍表現学習を遠ざけるために、オフラインで作業し、既存の複数のリプレイバッファ上でテストを繰り返します。
SFは基本状態の特徴の選択に悩まされているようだ。
ラプラシア固有関数を持つSFは、オートエンコーダ、逆好奇性、遷移モデル、低ランク遷移行列、コントラスト学習、多様性(APS)に基づくSFは、一貫性がない。
対照的に、FB表現は1つの原則付き基準から初等および後継の特徴を共同で学習する。
彼らは最良かつ一貫してボード上で動作し、優れたリプレイバッファで監督されたrlパフォーマンスの85%をゼロショット方式で達成した。
関連論文リスト
- Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - Unsupervised Zero-Shot Reinforcement Learning via Functional Reward
Encodings [107.1837163643886]
本稿では、このゼロショットRL問題に対する汎用的でスケーラブルな解として、関数型報酬符号化(FRE)を提案する。
我々の主な考え方は、任意のタスクの関数表現を、状態逆サンプルを符号化することで学習することである。
多様なランダムな非教師付き報酬関数で訓練されたFREエージェントが、新しいタスクを解くために一般化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-02-27T01:59:02Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。