論文の概要: Vanishing Bias Heuristic-guided Reinforcement Learning Algorithm
- arxiv url: http://arxiv.org/abs/2306.10216v1
- Date: Sat, 17 Jun 2023 00:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:33:14.863202
- Title: Vanishing Bias Heuristic-guided Reinforcement Learning Algorithm
- Title(参考訳): バイアスヒューリスティック誘導強化学習アルゴリズムの消失
- Authors: Qinru Li, Hao Xiang
- Abstract要約: 本稿では,月面ランダーの環境を調査し,Q-Learning, SARSA, MC, タイリング符号などの古典的手法を実装した。
そこで我々は,導入した人間のバイアスを緩和しつつ,早期学習の指導に活用するHuristic RLというアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning has achieved tremendous success in the many Atari
games. In this paper we explored with the lunar lander environment and
implemented classical methods including Q-Learning, SARSA, MC as well as tiling
coding. We also implemented Neural Network based methods including DQN, Double
DQN, Clipped DQN. On top of these, we proposed a new algorithm called Heuristic
RL which utilizes heuristic to guide the early stage training while alleviating
the introduced human bias. Our experiments showed promising results for our
proposed methods in the lunar lander environment.
- Abstract(参考訳): 強化学習は多くのatariゲームで大きな成功を収めた。
本稿では,月面ランダーの環境を調査し,Q-Learning, SARSA, MC, タイリング符号などの古典的手法を実装した。
また、DQN、Double DQN、Clipped DQNなどのニューラルネットワークベースの手法を実装した。
そこで我々は,ヒューリスティックRLというアルゴリズムを提案し,ヒューリスティックを用いて,導入した人間のバイアスを緩和しつつ,早期学習の指導を行う。
本実験は,月面ランダー環境における提案手法の有望な結果を示した。
関連論文リスト
- Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Human-Level Control through Directly-Trained Deep Spiking Q-Networks [16.268397551693862]
スパイキングニューラルネットワーク(SNN)は、その高エネルギー効率のため、ニューロモルフィックなハードウェアに大きな可能性を秘めている。
本稿では,Leakyインテグレート・アンド・ファイアニューロンとDeep Q-Networkに基づいて,直接学習した深部スパイキング強化学習アーキテクチャを提案する。
我々の研究は、直接学習されたSNNを用いて、複数のAtariゲームで最先端のパフォーマンスを達成する最初のものである。
論文 参考訳(メタデータ) (2021-12-13T09:46:17Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - An Improved Algorithm of Robot Path Planning in Complex Environment
Based on Double DQN [4.161177874372099]
本稿では、A*とRRT(Rapidly-Exploring Random Tree)を参考に、Double DQN(DDQN)の改良を提案する。
シミュレーション実験により, DDQNの有効性が検証された。
論文 参考訳(メタデータ) (2021-07-23T14:03:04Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - A Nesterov's Accelerated quasi-Newton method for Global Routing using
Deep Reinforcement Learning [0.0]
本稿では,Nesterovの高速化準ニュートン法を導入することにより,深層Qネットワークのトレーニングを高速化する。
グローバルルーティングのための二重DQNを用いた深層強化学習における提案手法の性能評価を行った。
論文 参考訳(メタデータ) (2020-10-15T07:30:17Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Balancing a CartPole System with Reinforcement Learning -- A Tutorial [5.5701008180812375]
本稿では,Cart-Poleシステムを制御するための各種強化学習(RL)アルゴリズムについて述べる。
特に、Q-learning、Deep Q Networks (DQN)、Double DQN、Dueling Network、(優先順位付けされた)経験の再現など、様々なRL概念を説明し、学習性能への影響を示す。
論文 参考訳(メタデータ) (2020-06-08T21:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。