Fugu-MT 論文翻訳(概要): Balancing a CartPole System with Reinforcement Learning -- A Tutorial

論文の概要: Balancing a CartPole System with Reinforcement Learning -- A Tutorial

arxiv url: http://arxiv.org/abs/2006.04938v2
Date: Fri, 12 Jun 2020 16:27:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 02:47:36.857627
Title: Balancing a CartPole System with Reinforcement Learning -- A Tutorial
Title（参考訳）: 強化学習によるCartPoleシステムのバランシング - チュートリアル
Authors: Swagat Kumar
Abstract要約: 本稿では,Cart-Poleシステムを制御するための各種強化学習(RL)アルゴリズムについて述べる。特に、Q-learning、Deep Q Networks (DQN)、Double DQN、Dueling Network、(優先順位付けされた)経験の再現など、様々なRL概念を説明し、学習性能への影響を示す。
参考スコア（独自算出の注目度）: 5.5701008180812375
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: In this paper, we provide the details of implementing various reinforcement learning (RL) algorithms for controlling a Cart-Pole system. In particular, we describe various RL concepts such as Q-learning, Deep Q Networks (DQN), Double DQN, Dueling networks, (prioritized) experience replay and show their effect on the learning performance. In the process, the readers will be introduced to OpenAI/Gym and Keras utilities used for implementing the above concepts. It is observed that DQN with PER provides best performance among all other architectures being able to solve the problem within 150 episodes.
Abstract（参考訳）: 本稿では,カートポールシステムを制御するための強化学習(rl)アルゴリズムの実装の詳細について述べる。具体的には、q-learning、deep q networks(dqn)、double dqn、dualling networks、(優先) experience replayといった様々なrl概念を説明し、学習性能への影響を示す。その過程で、読者は上記の概念を実装するために使われるOpenAI/GymおよびKerasユーティリティに紹介される。 DQN with PERは150回以内で問題を解くことができる他のアーキテクチャの中で最高のパフォーマンスを提供する。

関連論文リスト

Double Q-learning for Value-based Deep Reinforcement Learning, Revisited [24.236175931106978]
ダブルQラーニング(Double Q-learning)は、Qラーニングの過大評価に対処するために導入されたアルゴリズムである。本稿では,この2次Q-ラーニングのコアアイデアを,価値に基づく深層RLに適用するアルゴリズムについて検討する。
論文参考訳（メタデータ） (2025-06-30T21:32:46Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
VQC-Based Reinforcement Learning with Data Re-uploading: Performance and Trainability [0.8192907805418583]
強化学習(Reinforcement Learning, RL)は、人間の監督なしに知的意思決定を行うエージェントを設計する。 Deep NNを使用するRLアルゴリズムであるDeep Q-Learningは、いくつかの特定のタスクで超人的なパフォーマンスを達成した。また、RLアルゴリズムの関数近似器として変分量子回路(VQC)を用いることもできる。
論文参考訳（メタデータ） (2024-01-21T18:00:15Z)
VA-learning as a more efficient alternative to Q-learning [49.526579981437315]
本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。 VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
論文参考訳（メタデータ） (2023-05-29T15:44:47Z)
CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文参考訳（メタデータ） (2022-12-02T17:59:43Z)
M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文参考訳（メタデータ） (2022-09-16T09:20:35Z)
Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-08T09:17:16Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning [114.35801511501639]
視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。 DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
論文参考訳（メタデータ） (2021-07-20T17:29:13Z)
Expert Q-learning: Deep Reinforcement Learning with Coarse State Values from Offline Expert Examples [8.938418994111716]
エキスパートQラーニングは、Dueling Q-learningにインスパイアされ、半教師付き学習を強化学習に組み込むことを目的としている。オフラインの専門家は、3つの離散値を使用して、粗い方法で状態の値を評価する。以上の結果から,エキスパートQ-ラーニングは本当に有用であり,過大評価バイアスに耐性があることが示唆された。
論文参考訳（メタデータ） (2021-06-28T12:41:45Z)
Deep Q-Network Based Multi-agent Reinforcement Learning with Binary Action Agents [1.8782750537161614]
強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
論文参考訳（メタデータ） (2020-08-06T15:16:05Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。