論文の概要: Explore to Generalize in Zero-Shot RL
- arxiv url: http://arxiv.org/abs/2306.03072v3
- Date: Mon, 15 Jan 2024 13:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:31:24.574833
- Title: Explore to Generalize in Zero-Shot RL
- Title(参考訳): ゼロショットrlの一般化を探求する
- Authors: Ev Zisselman, Itai Lavie, Daniel Soudry, Aviv Tamar
- Abstract要約: 本研究では,強化学習におけるゼロショットの一般化について検討する。
提案手法は,Mazeタスクが83%,Heistが74%,トレーニングレベルが200ドルという,極めて効果的な一般化を実現したProcGen課題のタスクの最先端技術であることを示す。
- 参考スコア(独自算出の注目度): 38.43215023828472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study zero-shot generalization in reinforcement learning-optimizing a
policy on a set of training tasks to perform well on a similar but unseen test
task. To mitigate overfitting, previous work explored different notions of
invariance to the task. However, on problems such as the ProcGen Maze, an
adequate solution that is invariant to the task visualization does not exist,
and therefore invariance-based approaches fail. Our insight is that learning a
policy that effectively $\textit{explores}$ the domain is harder to memorize
than a policy that maximizes reward for a specific task, and therefore we
expect such learned behavior to generalize well; we indeed demonstrate this
empirically on several domains that are difficult for invariance-based
approaches. Our $\textit{Explore to Generalize}$ algorithm (ExpGen) builds on
this insight: we train an additional ensemble of agents that optimize reward.
At test time, either the ensemble agrees on an action, and we generalize well,
or we take exploratory actions, which generalize well and drive us to a novel
part of the state space, where the ensemble may potentially agree again. We
show that our approach is the state-of-the-art on tasks of the ProcGen
challenge that have thus far eluded effective generalization, yielding a
success rate of $83\%$ on the Maze task and $74\%$ on Heist with $200$ training
levels. ExpGen can also be combined with an invariance based approach to gain
the best of both worlds, setting new state-of-the-art results on ProcGen.
- Abstract(参考訳): 強化学習におけるゼロショット一般化について検討し、類似するが目立たないテストタスクでうまく機能するように訓練タスクの集合のポリシーを最適化する。
オーバーフィッティングを軽減するために、以前の研究はタスクへの不変性の異なる概念を探求した。
しかし、progen mazeのような問題では、タスクの可視化に不変な適切な解は存在しないため、不変性に基づくアプローチは失敗する。
私たちの見識では、ドメインを効果的に$\textit{explores}$というポリシーを学ぶことは、特定のタスクに対する報酬を最大化するポリシーよりも記憶が難しいので、そのような学習された振る舞いがうまく一般化することを期待しています。
私たちの$\textit{Explore to Generalize}$ algorithm (ExpGen)は、この洞察に基づいています。
テスト時に、アンサンブルはアクションについて合意し、私たちはうまく一般化するか、または探索的なアクションをとる。
当社のアプローチは、これまで効果的な一般化を導いてきたprocgenチャレンジのタスクの最先端技術であり、mazeタスクで$83\%、トレーニングレベルが$200のheistで$74\%の成功率を示しています。
ExpGenは、両方の世界の長所を得るために、不変ベースのアプローチと組み合わせて、ProcGenに新しい最先端の結果を設定することもできる。
関連論文リスト
- Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning [5.624791703748109]
エージェントの一般化性能を高めるために,訓練中の探索量の増加を活用できることが示される。
本研究では,エージェントが訓練する状態の数を増やすことで,この直感を活用する新しい手法であるExplore-Goを提案する。
論文 参考訳(メタデータ) (2024-06-12T10:39:31Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。
また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文 参考訳(メタデータ) (2023-06-05T03:08:29Z) - Inverse Reinforcement Learning with the Average Reward Criterion [3.719493310637464]
本稿では, 逆強化学習(IRL)の問題点を, 平均回帰基準を用いて検討する。
目的は、エージェントが経験豊富なエージェントから状態とアクションのサンプルしか持たない場合、未知のポリシーと報酬関数を回復することである。
論文 参考訳(メタデータ) (2023-05-24T01:12:08Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Bandit Labor Training [2.28438857884398]
オンデマンドの労働プラットフォームは、求人需要に対応するために熟練した労働者を訓練することを目指している。
限られたジョブがトレーニングに利用可能であり、通常はすべてのワーカーを訓練する必要はないため、トレーニングジョブの効率的なマッチングには、遅いジョブよりも高速学習者の優先順位付けが必要である。
どんなポリシーでも$Omega(log T)$のインスタンス依存の後悔と$Omega(K2/3)$の最悪の後悔を起こさなければならない。
論文 参考訳(メタデータ) (2020-06-11T21:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。