論文の概要: Impact of multi-armed bandit strategies on deep recurrent reinforcement
learning
- arxiv url: http://arxiv.org/abs/2310.08331v1
- Date: Thu, 12 Oct 2023 13:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:07:44.900796
- Title: Impact of multi-armed bandit strategies on deep recurrent reinforcement
learning
- Title(参考訳): 多腕バンディット戦略が深部リカレント強化学習に及ぼす影響
- Authors: Valentina Zangirolami and Matteo Borrotti
- Abstract要約: 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
探索のための適応的な手法は、探索と搾取の間のトレードオフをよりよく近似することを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incomplete knowledge of the environment leads an agent to make decisions
under uncertainty. One of the major dilemmas in Reinforcement Learning (RL)
where an autonomous agent has to balance two contrasting needs in making its
decisions is: exploiting the current knowledge of the environment to maximize
the cumulative reward as well as exploring actions that allow improving the
knowledge of the environment, hopefully leading to higher reward values
(exploration-exploitation trade-off). Concurrently, another relevant issue
regards the full observability of the states, which may not be assumed in all
applications. Such as when only 2D images are considered as input in a RL
approach used for finding the optimal action within a 3D simulation
environment. In this work, we address these issues by deploying and testing
several techniques to balance exploration and exploitation trade-off on
partially observable systems for predicting steering wheels in autonomous
driving scenario. More precisely, the final aim is to investigate the effects
of using both stochastic and deterministic multi-armed bandit strategies
coupled with a Deep Recurrent Q-Network. Additionally, we adapted and evaluated
the impact of an innovative method to improve the learning phase of the
underlying Convolutional Recurrent Neural Network. We aim to show that adaptive
stochastic methods for exploration better approximate the trade-off between
exploration and exploitation as, in general, Softmax and Max-Boltzmann
strategies are able to outperform epsilon-greedy techniques.
- Abstract(参考訳): 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(RL)における主要なジレンマの1つは、自律エージェントがその決定を行う上で2つの対照的なニーズをバランスさせなければならないことである。累積的な報酬を最大化するために環境の現在の知識を活用することと、環境の知識を改善するための行動を探究することである。
同時に、関連する別の問題として、すべてのアプリケーションで想定されない状態の完全な可観測性がある。
例えば、3Dシミュレーション環境で最適な動作を見つけるために使用されるRLアプローチでは、2D画像のみを入力と見なす。
本研究では,運転シナリオにおけるステアリングホイールの予測のための,部分的に観測可能なシステムにおける探索と活用のトレードオフのバランスをとるために,いくつかの手法をデプロイし,テストすることで,これらの課題に対処した。
より正確には、Deep Recurrent Q-Networkと組み合わされた確率的および決定論的マルチアームバンディット戦略を使用することの効果を検討することを目的としている。
さらに,畳み込みリカレントニューラルネットワークの学習フェーズを改善するために,革新的な手法の影響を適応し,評価した。
我々は,探索のための適応確率的手法が探索と搾取の間のトレードオフをよりよく近似することを示すことを目的としており,一般に,Softmax と Max-Boltzmann の戦略は,エプシロングレード技術より優れている。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - The Exploration-Exploitation Dilemma Revisited: An Entropy Perspective [18.389232051345825]
政策最適化において、探索への過度な依存は学習効率を低下させる一方、搾取への過度な依存は、局地的最適化においてエージェントを罠にする可能性がある。
本稿では,エントロピーの観点から,探査・探査ジレンマを再考する。
我々は、AdaZeroと呼ばれるエンドツーエンド適応フレームワークを構築し、探索するか、活用するかを自動的に決定する。
論文 参考訳(メタデータ) (2024-08-19T13:21:46Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Uncertainty-Aware Decision Transformer for Stochastic Driving Environments [34.78461208843929]
環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。
UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。
我々は、意思決定変換器のグローバルなリターンを、実際の結果から学ぶ環境の影響を受けない、切り捨てられたリターンに置き換える。
論文 参考訳(メタデータ) (2023-09-28T12:44:51Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。