論文の概要: Probing Transfer in Deep Reinforcement Learning without Task Engineering
- arxiv url: http://arxiv.org/abs/2210.12448v1
- Date: Sat, 22 Oct 2022 13:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:15:08.416868
- Title: Probing Transfer in Deep Reinforcement Learning without Task Engineering
- Title(参考訳): タスクエンジニアリングを伴わない深層強化学習における探索伝達
- Authors: Andrei A. Rusu, Sebastian Flennerhag, Dushyant Rao, Razvan Pascanu,
Raia Hadsell
- Abstract要約: 深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、Space Invaders、Breakout、Freewayといったゲームの基本バージョンにいくつかの個別の修正を加えてキュリキュラを作成した。
基本ゲームからそれらのバリエーションへのゼロショット転送は可能であるが、性能のばらつきは要因間の相互作用によって大きく説明される。
- 参考スコア(独自算出の注目度): 26.637254541454773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the use of original game curricula supported by the Atari 2600
console as a heterogeneous transfer benchmark for deep reinforcement learning
agents. Game designers created curricula using combinations of several discrete
modifications to the basic versions of games such as Space Invaders, Breakout
and Freeway, making them progressively more challenging for human players. By
formally organising these modifications into several factors of variation, we
are able to show that Analyses of Variance (ANOVA) are a potent tool for
studying the effects of human-relevant domain changes on the learning and
transfer performance of a deep reinforcement learning agent. Since no manual
task engineering is needed on our part, leveraging the original multi-factorial
design avoids the pitfalls of unintentionally biasing the experimental setup.
We find that game design factors have a large and statistically significant
impact on an agent's ability to learn, and so do their combinatorial
interactions. Furthermore, we show that zero-shot transfer from the basic games
to their respective variations is possible, but the variance in performance is
also largely explained by interactions between factors. As such, we argue that
Atari game curricula offer a challenging benchmark for transfer learning in RL,
that can help the community better understand the generalisation capabilities
of RL agents along dimensions which meaningfully impact human generalisation
performance. As a start, we report that value-function finetuning of regularly
trained agents achieves positive transfer in a majority of cases, but
significant headroom for algorithmic innovation remains. We conclude with the
observation that selective transfer from multiple variants could further
improve performance.
- Abstract(参考訳): 深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、スペースインベーダー、ブレイクアウト、フリーウェイなどのゲームの基本バージョンにいくつかの離散的な修正を組み合わせて、curriculaを作成した。
これらの変化の要因を形式的に整理することにより,ANOVA (Analyses of Variance) が深層強化学習エージェントの学習・伝達性能に及ぼす人間関連領域の変化の影響を研究する強力なツールであることを示すことができる。
この部分では手動のタスクエンジニアリングは必要ないので、もともとの多要素設計を活用することで、意図せず実験的な設定をバイアスする欠点を避けることができる。
ゲーム設計因子はエージェントの学習能力に大きく統計的に有意な影響を与え、コンビネータの相互作用にも影響を与えることが判明した。
さらに,基本ゲームから各バリエーションへのゼロショット移動は可能であるが,性能のばらつきは要因間の相互作用によっても説明できることを示した。
このように、Atari game curriculaは、RLにおける移動学習のための挑戦的なベンチマークを提供し、人間の一般化性能に有意な影響を及ぼす次元に沿ったRLエージェントの一般化能力をコミュニティがよりよく理解するのに役立つと論じる。
はじめに、定期的に訓練されたエージェントの価値関数の微調整は、ほとんどのケースで正の転送を達成するが、アルゴリズムによるイノベーションのための重要なヘッドルームは残されている。
その結果,複数変種からの選択的移動により性能が向上する可能性が示唆された。
関連論文リスト
- Understanding the Role of Invariance in Transfer Learning [9.220104991339104]
トランスファーラーニングは、異なるタスク間で知識を共有するための強力なテクニックである。
近年の研究では、逆入力摂動のような特定の不変性を持つモデルの表現が、下流タスクにおいてより高い性能を達成することが判明している。
論文 参考訳(メタデータ) (2024-07-05T07:53:52Z) - Pixel to policy: DQN Encoders for within & cross-game reinforcement
learning [0.0]
強化学習は様々なタスクや環境に適用できる。
多くの環境は類似した構造を持ち、他のタスクでのRL性能を改善するために利用することができる。
この研究は、スクラッチからトレーニングされたRLモデルのパフォーマンスと、トランスファーラーニングの異なるアプローチの比較も行っている。
論文 参考訳(メタデータ) (2023-08-01T06:29:33Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。