論文の概要: Explore to Generalize in Zero-Shot RL
- arxiv url: http://arxiv.org/abs/2306.03072v1
- Date: Mon, 5 Jun 2023 17:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 13:35:08.200171
- Title: Explore to Generalize in Zero-Shot RL
- Title(参考訳): ゼロショットrlの一般化を探求する
- Authors: Ev Zisselman, Itai Lavie, Daniel Soudry, Aviv Tamar
- Abstract要約: 強化学習におけるゼロショット一般化について研究する。
提案手法は, ProcGen 課題におけるいくつかの課題の最先端技術であり, これまでのところ, 効果的な一般化が得られていないことを示す。
- 参考スコア(独自算出の注目度): 39.49336588216659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study zero-shot generalization in reinforcement learning - optimizing a
policy on a set of training tasks such that it will perform well on a similar
but unseen test task. To mitigate overfitting, previous work explored different
notions of invariance to the task. However, on problems such as the ProcGen
Maze, an adequate solution that is invariant to the task visualization does not
exist, and therefore invariance-based approaches fail. Our insight is that
learning a policy that $\textit{explores}$ the domain effectively is harder to
memorize than a policy that maximizes reward for a specific task, and therefore
we expect such learned behavior to generalize well; we indeed demonstrate this
empirically on several domains that are difficult for invariance-based
approaches. Our $\textit{Explore to Generalize}$ algorithm (ExpGen) builds on
this insight: We train an additional ensemble of agents that optimize reward.
At test time, either the ensemble agrees on an action, and we generalize well,
or we take exploratory actions, which are guaranteed to generalize and drive us
to a novel part of the state space, where the ensemble may potentially agree
again. We show that our approach is the state-of-the-art on several tasks in
the ProcGen challenge that have so far eluded effective generalization. For
example, we demonstrate a success rate of $82\%$ on the Maze task and $74\%$ on
Heist with $200$ training levels.
- Abstract(参考訳): 我々は、強化学習におけるゼロショット一般化について研究し、同様のが見えないテストタスクでうまく機能するように、一連のトレーニングタスクに対するポリシーを最適化する。
オーバーフィッティングを軽減するために、以前の研究はタスクへの不変性の異なる概念を探求した。
しかし、progen mazeのような問題では、タスクの可視化に不変な適切な解は存在しないため、不変性に基づくアプローチは失敗する。
我々の見識では、$\textit{explores}$ the domain effectiveというポリシーを学ぶことは、特定のタスクに対する報酬を最大化するポリシーよりも記憶が難しいので、そのような学習された振る舞いがうまく一般化することを期待しています。
私たちの$\textit{Explore to Generalize}$ algorithm (ExpGen)は、この洞察に基づいています。
テスト時には、アンサンブルがアクションについて合意し、うまく一般化するか、あるいは、アンサンブルが再び同意する可能性のある状態空間の新たな部分への一般化と推進を保証される探索的なアクションを取るかのいずれかです。
提案手法は,ProcGen課題におけるいくつかの課題の最先端技術であることを示す。
例えば、mazeタスクで$82\%、トレーニングレベルが$200のheistで$74\%という成功率を示しています。
関連論文リスト
- Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning [5.624791703748109]
エージェントの一般化性能を高めるために,訓練中の探索量の増加を活用できることが示される。
本研究では,エージェントが訓練する状態の数を増やすことで,この直感を活用する新しい手法であるExplore-Goを提案する。
論文 参考訳(メタデータ) (2024-06-12T10:39:31Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。
また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文 参考訳(メタデータ) (2023-06-05T03:08:29Z) - Inverse Reinforcement Learning with the Average Reward Criterion [3.719493310637464]
本稿では, 逆強化学習(IRL)の問題点を, 平均回帰基準を用いて検討する。
目的は、エージェントが経験豊富なエージェントから状態とアクションのサンプルしか持たない場合、未知のポリシーと報酬関数を回復することである。
論文 参考訳(メタデータ) (2023-05-24T01:12:08Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Bandit Labor Training [2.28438857884398]
オンデマンドの労働プラットフォームは、求人需要に対応するために熟練した労働者を訓練することを目指している。
限られたジョブがトレーニングに利用可能であり、通常はすべてのワーカーを訓練する必要はないため、トレーニングジョブの効率的なマッチングには、遅いジョブよりも高速学習者の優先順位付けが必要である。
どんなポリシーでも$Omega(log T)$のインスタンス依存の後悔と$Omega(K2/3)$の最悪の後悔を起こさなければならない。
論文 参考訳(メタデータ) (2020-06-11T21:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。