論文の概要: Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning
- arxiv url: http://arxiv.org/abs/2501.17827v1
- Date: Wed, 29 Jan 2025 18:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:33.426264
- Title: Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning
- Title(参考訳): Langevin Soft Actor-Critic: 不確実性駆動型批判学習による効率的な探索
- Authors: Haque Ishfaq, Guangyuan Wang, Sami Nur Islam, Doina Precup,
- Abstract要約: Langevin Soft Actor Critic (LSAC) は、政策最適化に対する不確実性推定による批判的学習の強化を優先している。
LSACは、連続制御タスクのための主流モデルフリーなRLアルゴリズムの性能より優れているか、あるいは劣っている。
特にLSACは、連続的なアクション空間を持つ連続制御タスクにおけるLCCベースのトンプソンサンプリングの最初の成功例である。
- 参考スコア(独自算出の注目度): 33.42657871152637
- License:
- Abstract: Existing actor-critic algorithms, which are popular for continuous control reinforcement learning (RL) tasks, suffer from poor sample efficiency due to lack of principled exploration mechanism within them. Motivated by the success of Thompson sampling for efficient exploration in RL, we propose a novel model-free RL algorithm, Langevin Soft Actor Critic (LSAC), which prioritizes enhancing critic learning through uncertainty estimation over policy optimization. LSAC employs three key innovations: approximate Thompson sampling through distributional Langevin Monte Carlo (LMC) based $Q$ updates, parallel tempering for exploring multiple modes of the posterior of the $Q$ function, and diffusion synthesized state-action samples regularized with $Q$ action gradients. Our extensive experiments demonstrate that LSAC outperforms or matches the performance of mainstream model-free RL algorithms for continuous control tasks. Notably, LSAC marks the first successful application of an LMC based Thompson sampling in continuous control tasks with continuous action spaces.
- Abstract(参考訳): 既存のアクター批判アルゴリズムは、連続制御強化学習(RL)タスクに人気があり、その内部の探索機構の欠如によりサンプル効率の低下に悩まされている。
RLにおける効率的な探索のためのトンプソンサンプリングの成功により、我々は、ポリシー最適化よりも不確実性推定による批判学習の強化を優先する新しいモデルフリーなRLアルゴリズム、LSACを提案する。
LSACは、分布的ランゲヴィン・モンテカルロ(LMC)ベースの$Q$更新による近似トンプソンサンプリング、$Q$関数の後部の複数のモードを探索する並列テンパリング、$Q$アクション勾配で正規化された拡散合成状態-アクションサンプルの3つの重要なイノベーションを採用している。
LSACは,連続制御タスクにおいて,主流モデルフリーなRLアルゴリズムの性能より優れているか,あるいは劣っているかを示す。
特にLSACは、連続的なアクション空間を持つ連続制御タスクにおけるLCCベースのトンプソンサンプリングの最初の成功例である。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement
Learning from Suboptimal Demonstrations [17.08814685657957]
Monte Carlo Augmented Actor Critic (MCAC) は、標準的なアクター・アクター・アクター・クリティカル・アルゴリズムに対するパラメータフリーな修正である。
MCACは、標準時間距離(TD)目標とモンテカルロの推定値の最大値を取ることで、修正された$Q$-値を計算する。
5ドルの連続制御ドメインに対する実験は、MCACが6ドルの一般的なRLおよびRL-from-demonstrationsアルゴリズムで学習効率を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2022-10-14T00:23:37Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。