論文の概要: Enhancing Reinforcement Learning Through Guided Search
- arxiv url: http://arxiv.org/abs/2408.10113v1
- Date: Mon, 19 Aug 2024 16:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:33:14.642715
- Title: Enhancing Reinforcement Learning Through Guided Search
- Title(参考訳): ガイド検索による強化学習の強化
- Authors: Jérôme Arjonilla, Abdallah Saffidine, Tristan Cazenave,
- Abstract要約: オフラインの政策学習では、潜在的な政策エラーを軽減するための基準ポリシーに近づき続けることが一般的である。
異なる環境ではありますが,同じようなコンセプトがパフォーマンス向上に有効かどうか,という疑問が浮かび上がっています。
実験はAtari 100kベンチマークで行った。
- 参考スコア(独自算出の注目度): 4.111084095218968
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the aim of improving performance in Markov Decision Problem in an Off-Policy setting, we suggest taking inspiration from what is done in Offline Reinforcement Learning (RL). In Offline RL, it is a common practice during policy learning to maintain proximity to a reference policy to mitigate uncertainty, reduce potential policy errors, and help improve performance. We find ourselves in a different setting, yet it raises questions about whether a similar concept can be applied to enhance performance ie, whether it is possible to find a guiding policy capable of contributing to performance improvement, and how to incorporate it into our RL agent. Our attention is particularly focused on algorithms based on Monte Carlo Tree Search (MCTS) as a guide.MCTS renowned for its state-of-the-art capabilities across various domains, catches our interest due to its ability to converge to equilibrium in single-player and two-player contexts. By harnessing the power of MCTS as a guide for our RL agent, we observed a significant performance improvement, surpassing the outcomes achieved by utilizing each method in isolation. Our experiments were carried out on the Atari 100k benchmark.
- Abstract(参考訳): オフライン強化学習(RL)におけるマルコフ決定問題(マルコフ決定問題)のパフォーマンス向上を目的として, オフライン強化学習(RL)で行われていることのインスピレーションを取り入れることを提案する。
オフラインRLでは、不確実性を緩和し、潜在的なポリシーエラーを減らし、パフォーマンスを向上させるために、基準ポリシーに近づき続ける政策学習において一般的なプラクティスである。
我々は、異なる状況下において、同様の概念がパフォーマンス向上に応用できるかどうか、パフォーマンス改善に寄与できる指針ポリシーを見つけることができるのか、どのようにRLエージェントに組み込むのか、という疑問を提起する。
我々の関心はモンテカルロ木探索(MCTS)に基づくアルゴリズムに特に焦点を絞っている。MCTSは、様々な領域にわたる最先端の能力で知られており、シングルプレイヤーと2プレイヤーの文脈で平衡に収束する能力によって、我々の関心を引いている。
MCTSのパワーをRLエージェントのガイドとして活用することにより,各手法を独立に利用することで達成した成果を克服し,大幅な性能向上を実現した。
実験はAtari 100kベンチマークで行った。
関連論文リスト
- Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn [14.30387204093346]
ディープニューラルネットワークは、大規模な意思決定問題に対処するために強化学習(RL)強力な関数近似器を提供する。
RLの課題の1つは、出力予測が小さくなり、バッチに含まれない状態に対する各バッチ更新後の制御不能な変更につながることである。
本稿では,既存のDRLアルゴリズムに容易に接続可能なChurn Approximated ReductIoN (CHAIN) と呼ばれる,異なる設定でチェーン効果を低減させる手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T11:08:20Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Reinforcement Learning using Guided Observability [26.307025803058714]
強化学習を部分的な可観測性に対処するためのシンプルで効率的なアプローチを提案します。
トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。
離散部分可観測性Markov決定プロセス(POMDP)ベンチマーク問題および連続部分可観測性MuJoCoおよびOpenAIジムタスクにおける包括的な評価は、PO-GRLがパフォーマンスを向上させることを示しています。
論文 参考訳(メタデータ) (2021-04-22T10:47:35Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。