論文の概要: Diverse Priors for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.14864v1
- Date: Mon, 23 Oct 2023 12:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:17:52.400708
- Title: Diverse Priors for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための多様性優先
- Authors: Chenfan Weng, Zhongguo Li
- Abstract要約: 強化学習(Reinforcement Learning, RL)では、エージェントは与えられた環境における累積報酬を最大化する。
本稿では、RLの初期値関数に最大値の多様性を組み込むことができる、微妙に設計された先行NNを用いた革新的なアプローチを提案する。
提案手法は,古典的制御問題の解法や一般探索タスクにおいて,従来のランダムな手法と比較して,優れた性能を示した。
- 参考スコア(独自算出の注目度): 2.8554857235549753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), agents aim at maximizing cumulative rewards
in a given environment. During the learning process, RL agents face the dilemma
of exploitation and exploration: leveraging existing knowledge to acquire
rewards or seeking potentially higher ones. Using uncertainty as a guiding
principle provides an active and effective approach to solving this dilemma and
ensemble-based methods are one of the prominent avenues for quantifying
uncertainty. Nevertheless, conventional ensemble-based uncertainty estimation
lacks an explicit prior, deviating from Bayesian principles. Besides, this
method requires diversity among members to generate less biased uncertainty
estimation results. To address the above problems, previous research has
incorporated random functions as priors. Building upon these foundational
efforts, our work introduces an innovative approach with delicately designed
prior NNs, which can incorporate maximal diversity in the initial value
functions of RL. Our method has demonstrated superior performance compared with
the random prior approaches in solving classic control problems and general
exploration tasks, significantly improving sample efficiency.
- Abstract(参考訳): 強化学習(RL)では、エージェントは与えられた環境における累積報酬を最大化する。
学習プロセスの間、RLエージェントは搾取と探索のジレンマに直面します。
不確実性を導く原理として利用すると、このジレンマを解き、アンサンブルに基づく手法は不確実性を定量化する重要な道の1つである。
それでも、従来のアンサンブルに基づく不確実性推定は、ベイズ原理から逸脱した明確な事前推定を欠いている。
さらに, この手法では, 偏りの少ない不確実性推定結果を生成するために, メンバー間の多様性が必要である。
上記の問題に対処するために、前回の研究ではランダム関数を前もって組み込んだ。
これらの基礎的な取り組みに基づいて、我々の研究は、RLの初期値関数に最大値の多様性を組み込むことができる、繊細に設計された先行NNによる革新的なアプローチを導入する。
本手法は,従来の制御問題や一般的な探索課題に対するランダム事前手法に比べて優れた性能を示し,サンプル効率を著しく改善した。
関連論文リスト
- Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - A Comprehensive Survey on Evidential Deep Learning and Its Applications [64.83473301188138]
Evidential Deep Learning (EDL)は、単一のフォワードパスで最小限の追加計算で信頼性の高い不確実性推定を提供する。
まず、主観的論理理論であるEDLの理論的基礎を掘り下げ、他の不確実性推定フレームワークとの区別について議論する。
さまざまな機械学習パラダイムや下流タスクにまたがる広範な応用について詳しく述べる。
論文 参考訳(メタデータ) (2024-09-07T05:55:06Z) - Improving Forward Compatibility in Class Incremental Learning by Increasing Representation Rank and Feature Richness [3.0620294646308754]
本稿では,前方互換性向上を目的としたRFR法を提案する。
本研究は,破滅的忘れ込みを緩和しつつ,新規タスク性能を高めるためのアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-22T11:14:30Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep
Ensemble Agents [17.96977778655143]
resetメソッドは、リプレイバッファを保持しながら、ディープRLエージェントの一部または全部の定期的なリセットを実行する。
本稿では,バニラリセット手法の限界に対処するために,深層アンサンブル学習を利用したリセットに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:59:39Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Soft Action Priors: Towards Robust Policy Transfer [9.860944032009847]
我々は、Reinforcement Learning as Inferenceフレームワークに先行する行動を用いて、最先端の政策蒸留技術を回復する。
そこで本研究では,報酬形成と補助正規化損失を組み合わせることで,行動先行を堅牢に活用できる適応手法のクラスを提案する。
提案手法は, 準最適先行学習において, 最先端の性能を達成し, 性能を上回り得ることを示す。
論文 参考訳(メタデータ) (2022-09-20T17:36:28Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。