論文の概要: Distilling Reinforcement Learning Tricks for Video Games
- arxiv url: http://arxiv.org/abs/2107.00703v1
- Date: Thu, 1 Jul 2021 19:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 13:03:10.933286
- Title: Distilling Reinforcement Learning Tricks for Video Games
- Title(参考訳): ビデオゲーム用強化学習技の蒸留
- Authors: Anssi Kanervisto, Christian Scheller, Yanick Schraner, Ville
Hautam\"aki
- Abstract要約: 強化学習(RL)研究は、異なる領域にまたがって適用できる一般的なソリューションに焦点を当てている。
近年の研究では、RLを効果的に使用するために必要なエンジニアリングステップ(トリック)が欠落していることが多い。
我々は、最先端の結果からトリックの説明を蒸留し、これらのトリックが標準の深層Q学習エージェントをどのように改善できるかを調査する。
- 参考スコア(独自算出の注目度): 8.097870074875729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) research focuses on general solutions that can be
applied across different domains. This results in methods that RL practitioners
can use in almost any domain. However, recent studies often lack the
engineering steps ("tricks") which may be needed to effectively use RL, such as
reward shaping, curriculum learning, and splitting a large task into smaller
chunks. Such tricks are common, if not necessary, to achieve state-of-the-art
results and win RL competitions. To ease the engineering efforts, we distill
descriptions of tricks from state-of-the-art results and study how well these
tricks can improve a standard deep Q-learning agent. The long-term goal of this
work is to enable combining proven RL methods with domain-specific tricks by
providing a unified software framework and accompanying insights in multiple
domains.
- Abstract(参考訳): 強化学習(RL)研究は、異なる領域にまたがって適用できる一般的なソリューションに焦点を当てている。
その結果、RL実践者がほとんどすべてのドメインで使用できる方法が得られます。
しかし、最近の研究では、報酬形成やカリキュラム学習、大きなタスクを小さなチャンクに分割するなど、RLを効果的に利用するために必要なエンジニアリングステップ(トリック)が欠落していることが多い。
このようなトリックは、最先端の結果を達成し、RL競争に勝つのに必要なくても一般的である。
技術者の努力を楽にするために、最先端の成果からトリックの説明を蒸留し、これらのトリックが標準の深層Q学習エージェントをどのように改善できるかを研究する。
この作業の長期的な目標は、証明済みのRLメソッドとドメイン固有のトリックを組み合わせることであり、統一されたソフトウェアフレームワークを提供し、複数のドメインに対する洞察を提供することである。
関連論文リスト
- Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning [11.531786269804707]
グラフ上の最適化問題(COP)を解決するためのゲージ変換(GT)手法を提案する。
GTは非常にシンプルで、10行未満のPythonコードで実装でき、ほとんどの強化学習モデルに適用できる。
GTを用いた従来のRLモデルでは,MaxCut問題に対して最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-04-06T15:31:17Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Solving Sokoban with backward reinforcement learning [3.314901648855819]
いくつかのパズルでは、目標の近くで使用する戦略は、初期の効果的な戦略とはかなり異なる場合があります。
一般的なアプローチは、前方探索と後方探索の両方を適用し、両者を整合させることである。
我々は、強化学習フレームワークの中で、このアイデアを一歩前進させるアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-05T07:37:57Z) - How to Make Deep RL Work in Practice [15.740760669623876]
最新のアルゴリズムの報告結果は、しばしば再現が困難である。
デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。
論文 参考訳(メタデータ) (2020-10-25T10:37:54Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。