論文の概要: Impact of multi-armed bandit strategies on deep recurrent reinforcement
learning
- arxiv url: http://arxiv.org/abs/2310.08331v1
- Date: Thu, 12 Oct 2023 13:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:07:44.900796
- Title: Impact of multi-armed bandit strategies on deep recurrent reinforcement
learning
- Title(参考訳): 多腕バンディット戦略が深部リカレント強化学習に及ぼす影響
- Authors: Valentina Zangirolami and Matteo Borrotti
- Abstract要約: 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
探索のための適応的な手法は、探索と搾取の間のトレードオフをよりよく近似することを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incomplete knowledge of the environment leads an agent to make decisions
under uncertainty. One of the major dilemmas in Reinforcement Learning (RL)
where an autonomous agent has to balance two contrasting needs in making its
decisions is: exploiting the current knowledge of the environment to maximize
the cumulative reward as well as exploring actions that allow improving the
knowledge of the environment, hopefully leading to higher reward values
(exploration-exploitation trade-off). Concurrently, another relevant issue
regards the full observability of the states, which may not be assumed in all
applications. Such as when only 2D images are considered as input in a RL
approach used for finding the optimal action within a 3D simulation
environment. In this work, we address these issues by deploying and testing
several techniques to balance exploration and exploitation trade-off on
partially observable systems for predicting steering wheels in autonomous
driving scenario. More precisely, the final aim is to investigate the effects
of using both stochastic and deterministic multi-armed bandit strategies
coupled with a Deep Recurrent Q-Network. Additionally, we adapted and evaluated
the impact of an innovative method to improve the learning phase of the
underlying Convolutional Recurrent Neural Network. We aim to show that adaptive
stochastic methods for exploration better approximate the trade-off between
exploration and exploitation as, in general, Softmax and Max-Boltzmann
strategies are able to outperform epsilon-greedy techniques.
- Abstract(参考訳): 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(RL)における主要なジレンマの1つは、自律エージェントがその決定を行う上で2つの対照的なニーズをバランスさせなければならないことである。累積的な報酬を最大化するために環境の現在の知識を活用することと、環境の知識を改善するための行動を探究することである。
同時に、関連する別の問題として、すべてのアプリケーションで想定されない状態の完全な可観測性がある。
例えば、3Dシミュレーション環境で最適な動作を見つけるために使用されるRLアプローチでは、2D画像のみを入力と見なす。
本研究では,運転シナリオにおけるステアリングホイールの予測のための,部分的に観測可能なシステムにおける探索と活用のトレードオフのバランスをとるために,いくつかの手法をデプロイし,テストすることで,これらの課題に対処した。
より正確には、Deep Recurrent Q-Networkと組み合わされた確率的および決定論的マルチアームバンディット戦略を使用することの効果を検討することを目的としている。
さらに,畳み込みリカレントニューラルネットワークの学習フェーズを改善するために,革新的な手法の影響を適応し,評価した。
我々は,探索のための適応確率的手法が探索と搾取の間のトレードオフをよりよく近似することを示すことを目的としており,一般に,Softmax と Max-Boltzmann の戦略は,エプシロングレード技術より優れている。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Controllable Safety-Critical Closed-loop Traffic Simulation via Guided
Diffusion [100.4988219600854]
誘導拡散モデルに根ざした新しいクローズドループシミュレーションフレームワークを提案する。
提案手法は, 現実の条件を密にエミュレートする現実的なロングテールシナリオの生成と, 制御性の向上という, 二つの異なる利点をもたらす。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Learning Algorithms for Intelligent Agents and Mechanisms [4.251500966181852]
本稿では,2つの異なる文脈における最適意思決定のための学習アルゴリズム,パート1における強化学習,パート2におけるオークションデザインについて検討する。
第2章では統計物理学に触発された強化学習(Reinforcement Learning, RL)の新たなアプローチを開発し, 最適化された望ましい特性を持つ最適ポリシを学習するだけでなく, 最大エントロピーRLに新たな光を照射する。
第3章では、ベイズ的視点を用いてRLの一般化問題に取り組み、環境の不完全な知識が完全に観測されたマルコフ決定過程(MDP)を部分的に観測されたMDP(POMD)に変換することを効果的に示している。
論文 参考訳(メタデータ) (2022-10-06T03:12:43Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z) - AAMDRL: Augmented Asset Management with Deep Reinforcement Learning [5.801876281373619]
深層強化学習がこの課題にどのように対処できるかを示す。
コントリビューションは3つある: (i) DRLにおける拡張状態とも呼ばれる文脈情報の使用, (ii) 観察と行動の間の1周期の遅延の影響, (iii) ウォークフォワード分析と呼ばれる新しい反復列車試験手法の実装。
我々の実験は、ボットのトレーディングに重点を置いているが、状況変化やノイズの多いデータとともに、シーケンシャルな環境で動作する他のボット環境に容易に翻訳できる。
論文 参考訳(メタデータ) (2020-09-30T03:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。