論文の概要: Double A3C: Deep Reinforcement Learning on OpenAI Gym Games
- arxiv url: http://arxiv.org/abs/2303.02271v1
- Date: Sat, 4 Mar 2023 00:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:43:42.645180
- Title: Double A3C: Deep Reinforcement Learning on OpenAI Gym Games
- Title(参考訳): Double A3C: OpenAI Gym Gamesの深層強化学習
- Authors: Yangxin Zhong, Jiajie He, and Lingjie Kong
- Abstract要約: 強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
両アルゴリズムがOpenAI Gym Atari 2600をプレイしてベンチマークを上回り,両アルゴリズムの強みを生かしたDouble A3Cアルゴリズムの改良版を提案し,実装する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is an area of machine learning figuring out how
agents take actions in an unknown environment to maximize its rewards. Unlike
classical Markov Decision Process (MDP) in which agent has full knowledge of
its state, rewards, and transitional probability, reinforcement learning
utilizes exploration and exploitation for the model uncertainty. Under the
condition that the model usually has a large state space, a neural network (NN)
can be used to correlate its input state to its output actions to maximize the
agent's rewards. However, building and training an efficient neural network is
challenging. Inspired by Double Q-learning and Asynchronous Advantage
Actor-Critic (A3C) algorithm, we will propose and implement an improved version
of Double A3C algorithm which utilizing the strength of both algorithms to play
OpenAI Gym Atari 2600 games to beat its benchmarks for our project.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
エージェントがその状態、報酬、遷移確率について完全な知識を持つ古典的なマルコフ決定プロセス(mdp)とは異なり、強化学習はモデルの不確実性のために探索と搾取を利用する。
通常、モデルが大きな状態空間を持つという条件下では、ニューラルネットワーク(NN)を使用して入力状態をその出力動作に関連付け、エージェントの報酬を最大化することができる。
しかし、効率的なニューラルネットワークの構築とトレーニングは難しい。
ダブルqラーニングと非同期アドバンテージアクタ-クリティック(a3c)アルゴリズムに触発されて,両アルゴリズムの強みを利用して openai gym atari 2600 ゲームをプレイし,プロジェクトのベンチマークを上回り,改良した double a3c アルゴリズムを提案し,実装する。
関連論文リスト
- Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - Mastering Chinese Chess AI (Xiangqi) Without Search [2.309569018066392]
我々は,検索アルゴリズムに頼らずに動作する高性能な中国チェスAIを開発した。
このAIは、人間の上位0.1%のプレイヤーと競争する能力を示した。
論文 参考訳(メタデータ) (2024-10-07T09:27:51Z) - Sup3r: A Semi-Supervised Algorithm for increasing Sparsity, Stability, and Separability in Hierarchy Of Time-Surfaces architectures [3.533874233403883]
Sup3rはHOTSネットワークのスパーシビリティ、安定性、分離性を向上させる。
Sup3rはクラス不変パターンを学び、相反する特徴を緩和し、処理されたイベントの数を減らす。
N-MNISTの予備的な結果は、Sup3rがバックプロパゲーションで訓練された同様の大きさの人工ニューラルネットワークと同等の精度を達成していることを示している。
論文 参考訳(メタデータ) (2024-04-15T09:33:19Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Learning Algorithms for Intelligent Agents and Mechanisms [4.251500966181852]
本稿では,2つの異なる文脈における最適意思決定のための学習アルゴリズム,パート1における強化学習,パート2におけるオークションデザインについて検討する。
第2章では統計物理学に触発された強化学習(Reinforcement Learning, RL)の新たなアプローチを開発し, 最適化された望ましい特性を持つ最適ポリシを学習するだけでなく, 最大エントロピーRLに新たな光を照射する。
第3章では、ベイズ的視点を用いてRLの一般化問題に取り組み、環境の不完全な知識が完全に観測されたマルコフ決定過程(MDP)を部分的に観測されたMDP(POMD)に変換することを効果的に示している。
論文 参考訳(メタデータ) (2022-10-06T03:12:43Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。
我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文 参考訳(メタデータ) (2020-08-15T22:18:20Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。