Fugu-MT 論文翻訳(概要): Impact of multi-armed bandit strategies on deep recurrent reinforcement learning

論文の概要: Impact of multi-armed bandit strategies on deep recurrent reinforcement learning

arxiv url: http://arxiv.org/abs/2310.08331v1
Date: Thu, 12 Oct 2023 13:45:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 11:07:44.900796
Title: Impact of multi-armed bandit strategies on deep recurrent reinforcement learning
Title（参考訳）: 多腕バンディット戦略が深部リカレント強化学習に及ぼす影響
Authors: Valentina Zangirolami and Matteo Borrotti
Abstract要約: 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。探索のための適応的な手法は、探索と搾取の間のトレードオフをよりよく近似することを示します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Incomplete knowledge of the environment leads an agent to make decisions under uncertainty. One of the major dilemmas in Reinforcement Learning (RL) where an autonomous agent has to balance two contrasting needs in making its decisions is: exploiting the current knowledge of the environment to maximize the cumulative reward as well as exploring actions that allow improving the knowledge of the environment, hopefully leading to higher reward values (exploration-exploitation trade-off). Concurrently, another relevant issue regards the full observability of the states, which may not be assumed in all applications. Such as when only 2D images are considered as input in a RL approach used for finding the optimal action within a 3D simulation environment. In this work, we address these issues by deploying and testing several techniques to balance exploration and exploitation trade-off on partially observable systems for predicting steering wheels in autonomous driving scenario. More precisely, the final aim is to investigate the effects of using both stochastic and deterministic multi-armed bandit strategies coupled with a Deep Recurrent Q-Network. Additionally, we adapted and evaluated the impact of an innovative method to improve the learning phase of the underlying Convolutional Recurrent Neural Network. We aim to show that adaptive stochastic methods for exploration better approximate the trade-off between exploration and exploitation as, in general, Softmax and Max-Boltzmann strategies are able to outperform epsilon-greedy techniques.
Abstract（参考訳）: 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。強化学習(RL)における主要なジレンマの1つは、自律エージェントがその決定を行う上で2つの対照的なニーズをバランスさせなければならないことである。累積的な報酬を最大化するために環境の現在の知識を活用することと、環境の知識を改善するための行動を探究することである。同時に、関連する別の問題として、すべてのアプリケーションで想定されない状態の完全な可観測性がある。例えば、3Dシミュレーション環境で最適な動作を見つけるために使用されるRLアプローチでは、2D画像のみを入力と見なす。本研究では,運転シナリオにおけるステアリングホイールの予測のための,部分的に観測可能なシステムにおける探索と活用のトレードオフのバランスをとるために,いくつかの手法をデプロイし,テストすることで,これらの課題に対処した。より正確には、Deep Recurrent Q-Networkと組み合わされた確率的および決定論的マルチアームバンディット戦略を使用することの効果を検討することを目的としている。さらに,畳み込みリカレントニューラルネットワークの学習フェーズを改善するために,革新的な手法の影響を適応し,評価した。我々は,探索のための適応確率的手法が探索と搾取の間のトレードオフをよりよく近似することを示すことを目的としており,一般に,Softmax と Max-Boltzmann の戦略は,エプシロングレード技術より優れている。

関連論文リスト

Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。本稿では,Active-Acquisition POMDPを提案する。積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文参考訳（メタデータ） (2024-10-04T19:48:23Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
The Exploration-Exploitation Dilemma Revisited: An Entropy Perspective [18.389232051345825]
政策最適化において、探索への過度な依存は学習効率を低下させる一方、搾取への過度な依存は、局地的最適化においてエージェントを罠にする可能性がある。本稿では,エントロピーの観点から,探査・探査ジレンマを再考する。我々は、AdaZeroと呼ばれるエンドツーエンド適応フレームワークを構築し、探索するか、活用するかを自動的に決定する。
論文参考訳（メタデータ） (2024-08-19T13:21:46Z)
Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文参考訳（メタデータ） (2024-07-17T09:45:27Z)
Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。 OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。 OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文参考訳（メタデータ） (2024-05-27T22:52:23Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Uncertainty-Aware Decision Transformer for Stochastic Driving Environments [34.78461208843929]
環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。 UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。我々は、意思決定変換器のグローバルなリターンを、実際の結果から学ぶ環境の影響を受けない、切り捨てられたリターンに置き換える。
論文参考訳（メタデータ） (2023-09-28T12:44:51Z)
CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。 CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文参考訳（メタデータ） (2023-06-09T18:45:15Z)
Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 LATent TIme-Correlated Exploration (Lattice)を提案する。
論文参考訳（メタデータ） (2023-05-31T17:40:43Z)
Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文参考訳（メタデータ） (2022-10-06T20:28:55Z)
Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文参考訳（メタデータ） (2022-08-19T13:09:32Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。