論文の概要: Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning
- arxiv url: http://arxiv.org/abs/2310.08331v2
- Date: Tue, 20 Feb 2024 09:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:41:00.708180
- Title: Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning
- Title(参考訳): 不確実性に対処する--深部強化学習における探索と活用のバランス
- Authors: Valentina Zangirolami and Matteo Borrotti
- Abstract要約: 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incomplete knowledge of the environment leads an agent to make decisions
under uncertainty. One of the major dilemmas in Reinforcement Learning (RL)
where an autonomous agent has to balance two contrasting needs in making its
decisions is: exploiting the current knowledge of the environment to maximize
the cumulative reward as well as exploring actions that allow improving the
knowledge of the environment, hopefully leading to higher reward values
(exploration-exploitation trade-off). Concurrently, another relevant issue
regards the full observability of the states, which may not be assumed in all
applications. For instance, when 2D images are considered as input in an RL
approach used for finding the best actions within a 3D simulation environment.
In this work, we address these issues by deploying and testing several
techniques to balance exploration and exploitation trade-off on partially
observable systems for predicting steering wheels in autonomous driving
scenarios. More precisely, the final aim is to investigate the effects of using
both adaptive and deterministic exploration strategies coupled with a Deep
Recurrent Q-Network. Additionally, we adapted and evaluated the impact of a
modified quadratic loss function to improve the learning phase of the
underlying Convolutional Recurrent Neural Network. We show that adaptive
methods better approximate the trade-off between exploration and exploitation
and, in general, Softmax and Max-Boltzmann strategies outperform epsilon-greedy
techniques.
- Abstract(参考訳): 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(RL)における主要なジレンマの1つは、自律エージェントがその決定を行う上で2つの対照的なニーズをバランスさせなければならないことである。累積的な報酬を最大化するために環境の現在の知識を活用することと、環境の知識を改善するための行動を探究することである。
同時に、関連する別の問題として、すべてのアプリケーションで想定されない状態の完全な可観測性がある。
例えば、3Dシミュレーション環境で最高のアクションを見つけるために使用されるRLアプローチでは、2D画像が入力と見なされる。
本研究では,運転シナリオにおけるステアリングホイールの予測のための,部分的に観測可能なシステムにおける探索と活用のトレードオフのバランスをとるために,いくつかの手法をデプロイし,テストすることで,これらの課題に対処した。
より正確には、Deep Recurrent Q-Networkと組み合わされた適応的および決定論的探索戦略を使用することの効果を検討することである。
さらに,畳み込み再帰ニューラルネットワークの学習フェーズを改善するために,修正2次損失関数の影響を適応し,評価した。
本研究では,探索と搾取のトレードオフを適応的手法で近似し,一般にsoftmax と max-boltzmann の戦略が epsilon-greedy の手法よりも優れていることを示す。
関連論文リスト
- Controllable Safety-Critical Closed-loop Traffic Simulation via Guided
Diffusion [100.4988219600854]
誘導拡散モデルに根ざした新しいクローズドループシミュレーションフレームワークを提案する。
提案手法は, 現実の条件を密にエミュレートする現実的なロングテールシナリオの生成と, 制御性の向上という, 二つの異なる利点をもたらす。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Learning Algorithms for Intelligent Agents and Mechanisms [4.251500966181852]
本稿では,2つの異なる文脈における最適意思決定のための学習アルゴリズム,パート1における強化学習,パート2におけるオークションデザインについて検討する。
第2章では統計物理学に触発された強化学習(Reinforcement Learning, RL)の新たなアプローチを開発し, 最適化された望ましい特性を持つ最適ポリシを学習するだけでなく, 最大エントロピーRLに新たな光を照射する。
第3章では、ベイズ的視点を用いてRLの一般化問題に取り組み、環境の不完全な知識が完全に観測されたマルコフ決定過程(MDP)を部分的に観測されたMDP(POMD)に変換することを効果的に示している。
論文 参考訳(メタデータ) (2022-10-06T03:12:43Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - AAMDRL: Augmented Asset Management with Deep Reinforcement Learning [5.801876281373619]
深層強化学習がこの課題にどのように対処できるかを示す。
コントリビューションは3つある: (i) DRLにおける拡張状態とも呼ばれる文脈情報の使用, (ii) 観察と行動の間の1周期の遅延の影響, (iii) ウォークフォワード分析と呼ばれる新しい反復列車試験手法の実装。
我々の実験は、ボットのトレーディングに重点を置いているが、状況変化やノイズの多いデータとともに、シーケンシャルな環境で動作する他のボット環境に容易に翻訳できる。
論文 参考訳(メタデータ) (2020-09-30T03:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。