論文の概要: A Comparison of Reward Functions in Q-Learning Applied to a Cart
Position Problem
- arxiv url: http://arxiv.org/abs/2105.11617v1
- Date: Tue, 25 May 2021 02:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:23:41.725273
- Title: A Comparison of Reward Functions in Q-Learning Applied to a Cart
Position Problem
- Title(参考訳): カート位置問題に対するQ-Learningにおけるリワード関数の比較
- Authors: Amartya Mukherjee
- Abstract要約: 強化学習は倒立振子問題と二重倒立振子問題を効果的に解いた。
強化学習では,報酬の最大化を目標として,エージェントが制御システムと対話することで学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Growing advancements in reinforcement learning has led to advancements in
control theory. Reinforcement learning has effectively solved the inverted
pendulum problem and more recently the double inverted pendulum problem. In
reinforcement learning, our agents learn by interacting with the control system
with the goal of maximizing rewards. In this paper, we explore three such
reward functions in the cart position problem. This paper concludes that a
discontinuous reward function that gives non-zero rewards to agents only if
they are within a given distance from the desired position gives the best
results.
- Abstract(参考訳): 強化学習の進歩は制御理論の進歩につながった。
強化学習は逆振り子問題を効果的に解決し,最近では二重反転振り子問題も解決した。
強化学習において,エージェントは報酬を最大化する目的で制御システムと対話することで学習する。
本稿では,カート位置問題における3つの報酬関数について検討する。
本稿では,与えられた位置から所定の距離以内にいる場合にのみ,エージェントに非ゼロ報酬を与える不連続報酬関数が最良の結果をもたらすことを結論する。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Auxiliary Reward Generation with Transition Distance Representation
Learning [20.150691753213817]
強化学習(RL)は、逐次意思決定問題に挑戦する上で、その強みを示している。
RLの報酬関数は、タスク完了度合いの尺度として機能するため、学習性能に不可欠である。
状態間の遷移距離を計測できる新しい表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:13:44Z) - Towards Faster Reinforcement Learning of Quantum Circuit Optimization:
Exponential Reward Functions [55.616364225463066]
量子回路の最適化のための強化学習は、報酬関数の値の最大化を目標とするエージェントを使用する。
本稿では,回路の構造特性に敏感な指数的報酬関数を提案する。
論文 参考訳(メタデータ) (2023-11-21T10:33:26Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - A Deep Reinforcement Learning Approach towards Pendulum Swing-up Problem
based on TF-Agents [6.000551438232908]
深層Q学習エージェントでCartPoleをトレーニングするというアイデアに適応して、ポールが落ちないようにする有望な結果を見つけることができます。
環境とエージェントの相互作用から学習する強化学習能力は、最適な制御戦略を提供する。
論文 参考訳(メタデータ) (2021-06-17T14:35:48Z) - Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。
我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文 参考訳(メタデータ) (2020-10-06T04:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。