Fugu-MT 論文翻訳(概要): Exploring Pessimism and Optimism Dynamics in Deep Reinforcement Learning

論文の概要: Exploring Pessimism and Optimism Dynamics in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2406.03890v1
Date: Thu, 6 Jun 2024 09:26:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 15:39:42.154447
Title: Exploring Pessimism and Optimism Dynamics in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習におけるペシミズムと最適化ダイナミクスの探索
Authors: Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir,
Abstract要約: 政治的でないアクター批判的アルゴリズムは、継続的な制御タスクに対する深い強化学習の可能性を示している。本稿では,アクターと批評家の双方に対して,悲観的・楽観的な程度を独立的に制御できる枠組みであるUtility Soft Actor-Critic(USAC)を紹介する。 USACは、政治以外のアクター批判的アルゴリズム内でバランスをとるための重要なステップである。
参考スコア（独自算出の注目度）: 13.374594152438691
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Off-policy actor-critic algorithms have shown promise in deep reinforcement learning for continuous control tasks. Their success largely stems from leveraging pessimistic state-action value function updates, which effectively address function approximation errors and improve performance. However, such pessimism can lead to under-exploration, constraining the agent's ability to explore/refine its policies. Conversely, optimism can counteract under-exploration, but it also carries the risk of excessive risk-taking and poor convergence if not properly balanced. Based on these insights, we introduce Utility Soft Actor-Critic (USAC), a novel framework within the actor-critic paradigm that enables independent control over the degree of pessimism/optimism for both the actor and the critic via interpretable parameters. USAC adapts its exploration strategy based on the uncertainty of critics through a utility function that allows us to balance between pessimism and optimism separately. By going beyond binary choices of optimism and pessimism, USAC represents a significant step towards achieving balance within off-policy actor-critic algorithms. Our experiments across various continuous control problems show that the degree of pessimism or optimism depends on the nature of the task. Furthermore, we demonstrate that USAC can outperform state-of-the-art algorithms for appropriately configured pessimism/optimism parameters.
Abstract（参考訳）: 政治的でないアクター批判的アルゴリズムは、継続的な制御タスクに対する深い強化学習の可能性を示している。その成功は主に悲観的な状態-作用値関数の更新によるものであり、関数近似誤差を効果的に処理し、パフォーマンスを改善する。しかし、そのような悲観主義は、エージェントの政策を探索・再定義する能力を制限し、探索の過小評価につながる可能性がある。逆に、楽観主義は過度の探索に反する可能性があるが、適切なバランスがとれなければ過剰なリスクテイクと低い収束のリスクも伴う。これらの知見に基づいて,アクターと批評家の悲観的・楽観的な程度を独立的に制御できる,アクター-批評家パラダイムの新たな枠組みであるUtility Soft Actor-Critic(USAC)を紹介した。 USACは、悲観主義と楽観主義を個別にバランスさせるユーティリティ機能を通じて、批判者の不確実性に基づいて、その探索戦略を適用します。楽観主義と悲観主義の二進的選択を超えて、USACは、非政治的なアクター批判的アルゴリズム内でバランスをとるための重要なステップである。様々な連続制御問題に対する実験は、悲観論や楽観論の度合いがタスクの性質に依存することを示している。さらに、USACは悲観的/楽観的パラメータを適切に設定するための最先端アルゴリズムより優れていることを示す。

関連論文リスト

DROP: Distributional and Regular Optimism and Pessimism for Reinforcement Learning [6.20048328543366]
本稿では,制御を推論として導いた楽観主義と悲観主義を用いた理論的基礎モデルを提案する。モデルでは学習性能は低かったが,DROPは全タスクにおいて高い一般性を示した。
論文参考訳（メタデータ） (2024-10-22T23:14:09Z)
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築 GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-08-29T08:02:09Z)
A Case for Validation Buffer in Pessimistic Actor-Critic [1.5022206231191775]
評価誤差はベルマン値と同様の固定点モデルにより近似できることを示す。本稿では,悲観的批判が偏りのない条件を抽出するための検証ペシミズム学習(VPL)アルゴリズムを提案する。 VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために、小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
論文参考訳（メタデータ） (2024-03-01T22:24:11Z)
Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文参考訳（メタデータ） (2023-02-15T01:57:57Z)
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-26T02:14:10Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文参考訳（メタデータ） (2021-04-06T05:23:20Z)
Deep Reinforcement Learning with Dynamic Optimism [29.806071693039655]
最適な楽観主義の度合いは、タスクや学習過程によって異なることが示される。この知見にインスパイアされた我々は、楽観的価値学習と悲観的価値学習を切り替える、新しいディープアクター批判アルゴリズムを導入する。
論文参考訳（メタデータ） (2021-02-07T10:28:09Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。