論文の概要: Explore to Generalize in Zero-Shot RL
- arxiv url: http://arxiv.org/abs/2306.03072v3
- Date: Mon, 15 Jan 2024 13:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:31:24.574833
- Title: Explore to Generalize in Zero-Shot RL
- Title(参考訳): ゼロショットrlの一般化を探求する
- Authors: Ev Zisselman, Itai Lavie, Daniel Soudry, Aviv Tamar
- Abstract要約: 本研究では,強化学習におけるゼロショットの一般化について検討する。
提案手法は,Mazeタスクが83%,Heistが74%,トレーニングレベルが200ドルという,極めて効果的な一般化を実現したProcGen課題のタスクの最先端技術であることを示す。
- 参考スコア(独自算出の注目度): 38.43215023828472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study zero-shot generalization in reinforcement learning-optimizing a
policy on a set of training tasks to perform well on a similar but unseen test
task. To mitigate overfitting, previous work explored different notions of
invariance to the task. However, on problems such as the ProcGen Maze, an
adequate solution that is invariant to the task visualization does not exist,
and therefore invariance-based approaches fail. Our insight is that learning a
policy that effectively $\textit{explores}$ the domain is harder to memorize
than a policy that maximizes reward for a specific task, and therefore we
expect such learned behavior to generalize well; we indeed demonstrate this
empirically on several domains that are difficult for invariance-based
approaches. Our $\textit{Explore to Generalize}$ algorithm (ExpGen) builds on
this insight: we train an additional ensemble of agents that optimize reward.
At test time, either the ensemble agrees on an action, and we generalize well,
or we take exploratory actions, which generalize well and drive us to a novel
part of the state space, where the ensemble may potentially agree again. We
show that our approach is the state-of-the-art on tasks of the ProcGen
challenge that have thus far eluded effective generalization, yielding a
success rate of $83\%$ on the Maze task and $74\%$ on Heist with $200$ training
levels. ExpGen can also be combined with an invariance based approach to gain
the best of both worlds, setting new state-of-the-art results on ProcGen.
- Abstract(参考訳): 強化学習におけるゼロショット一般化について検討し、類似するが目立たないテストタスクでうまく機能するように訓練タスクの集合のポリシーを最適化する。
オーバーフィッティングを軽減するために、以前の研究はタスクへの不変性の異なる概念を探求した。
しかし、progen mazeのような問題では、タスクの可視化に不変な適切な解は存在しないため、不変性に基づくアプローチは失敗する。
私たちの見識では、ドメインを効果的に$\textit{explores}$というポリシーを学ぶことは、特定のタスクに対する報酬を最大化するポリシーよりも記憶が難しいので、そのような学習された振る舞いがうまく一般化することを期待しています。
私たちの$\textit{Explore to Generalize}$ algorithm (ExpGen)は、この洞察に基づいています。
テスト時に、アンサンブルはアクションについて合意し、私たちはうまく一般化するか、または探索的なアクションをとる。
当社のアプローチは、これまで効果的な一般化を導いてきたprocgenチャレンジのタスクの最先端技術であり、mazeタスクで$83\%、トレーニングレベルが$200のheistで$74\%の成功率を示しています。
ExpGenは、両方の世界の長所を得るために、不変ベースのアプローチと組み合わせて、ProcGenに新しい最先端の結果を設定することもできる。
関連論文リスト
- $β$-DQN: Improving Deep Q-Learning By Evolving the Behavior [41.13282452752521]
$beta$-DQNは、振る舞い関数で標準DQNを拡張する、シンプルで効率的な探索方法である。
適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。
単純かつ挑戦的な探索領域の実験は、$beta$-DQNが既存のベースラインメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-01-01T18:12:18Z) - Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning [14.003793644193605]
マルチエージェント環境では、エージェントはスパースや遅れたグローバル報酬のために最適なポリシーを学ぶのに苦労することが多い。
本稿では,エージェント・テンポラル・アジェント・リワード再分配(TAR$2$)を導入し,エージェント・テンポラル・クレジット割り当て問題に対処する新しいアプローチを提案する。
TAR$2$は、粗末なグローバル報酬をタイムステップ固有の報酬に分解し、エージェント固有の報酬を計算します。
論文 参考訳(メタデータ) (2024-12-19T12:05:13Z) - MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Bandit Labor Training [2.28438857884398]
オンデマンドの労働プラットフォームは、求人需要に対応するために熟練した労働者を訓練することを目指している。
限られたジョブがトレーニングに利用可能であり、通常はすべてのワーカーを訓練する必要はないため、トレーニングジョブの効率的なマッチングには、遅いジョブよりも高速学習者の優先順位付けが必要である。
どんなポリシーでも$Omega(log T)$のインスタンス依存の後悔と$Omega(K2/3)$の最悪の後悔を起こさなければならない。
論文 参考訳(メタデータ) (2020-06-11T21:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。