Fugu-MT 論文翻訳(概要): Optimal Control-Based Baseline for Guided Exploration in Policy Gradient Methods

論文の概要: Optimal Control-Based Baseline for Guided Exploration in Policy Gradient Methods

arxiv url: http://arxiv.org/abs/2011.02073v5
Date: Wed, 06 Nov 2024 01:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.077788
Title: Optimal Control-Based Baseline for Guided Exploration in Policy Gradient Methods
Title（参考訳）: 政策勾配法における誘導探索のための最適制御ベースライン
Authors: Xubo Lyu, Site Li, Seth Siriya, Ye Pu, Mo Chen,
Abstract要約: 本稿では, 深層強化学習におけるポリシー勾配法に対して, 最適制御ベースライン関数を提案する。我々は,ロボット学習タスクのベースラインを検証し,ガイド付き探索におけるその効果を示す。
参考スコア（独自算出の注目度）: 8.718494948845711
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, a novel optimal control-based baseline function is presented for the policy gradient method in deep reinforcement learning (RL). The baseline is obtained by computing the value function of an optimal control problem, which is formed to be closely associated with the RL task. In contrast to the traditional baseline aimed at variance reduction of policy gradient estimates, our work utilizes the optimal control value function to introduce a novel aspect to the role of baseline -- providing guided exploration during policy learning. This aspect is less discussed in prior works. We validate our baseline on robot learning tasks, showing its effectiveness in guided exploration, particularly in sparse reward environments.
Abstract（参考訳）: 本稿では, 深部強化学習(RL)におけるポリシー勾配法に対して, 最適制御ベースライン関数を提案する。ベースラインは、RLタスクと密接に関連している最適制御問題の値関数を演算することによって得られる。政策勾配推定のばらつき低減を目的とした従来のベースラインとは対照的に,我々の研究は最適制御値関数を用いて,政策学習中のガイド付き探索を可能にするベースラインの役割に新たな側面を導入する。この側面は以前の作品では議論されていない。ロボット学習タスクのベースラインを検証し、ガイド付き探索、特にスパース報酬環境におけるその効果を示す。

関連論文リスト

Performative Policy Gradient: Optimality in Performative Reinforcement Learning [13.777823115521665]
デプロイ後の機械学習アルゴリズムは、しばしば彼らが行動する環境に影響を与える。我々はPerformative Policy Gradient Algorithm (PePG)を紹介する。 PePGは性能的に最適な政策、すなわち自分自身によって誘導される分布シフトの下で最適な政策に収束する。
論文参考訳（メタデータ） (2025-12-23T18:20:06Z)
Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文参考訳（メタデータ） (2025-09-29T19:32:11Z)
KIPPO: Koopman-Inspired Proximal Policy Optimization [4.46358470535211]
強化学習(RL)は様々な分野で大きな進歩を遂げてきた。 PPO(Proximal Policy)のような政策勾配法は、性能、安定性、計算効率のバランスのために人気を博している。
論文参考訳（メタデータ） (2025-05-20T16:25:41Z)
On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning [30.767979998925437]
汎用ユーティリティ(RLGU)による強化学習は、標準的な期待したリターンを超えた問題をキャプチャする統一フレームワークを提供する。標準RL政策勾配法(PG法)の理論的解析の最近の進歩とRLGUにおける最近の取り組みは依然として限られている。 RLGUにおけるPG手法のグローバルな最適性保証を確立する。
論文参考訳（メタデータ） (2024-10-05T10:24:07Z)
Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。 LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文参考訳（メタデータ） (2024-07-09T02:11:12Z)
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline [47.16115174891401]
本稿では,この分散問題を緩和するために,最適な行動依存ベースライン (Off-OAB) を用いた非政治政策勾配法を提案する。提案手法は,OpenAI Gym と MuJoCo の6つの代表タスクに対して提案手法を評価する。
論文参考訳（メタデータ） (2024-05-04T05:21:28Z)
Discovering Behavioral Modes in Deep Reinforcement Learning Policies Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文参考訳（メタデータ） (2024-02-20T11:50:50Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文参考訳（メタデータ） (2022-10-03T14:57:46Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy [11.34520632697191]
強化学習(RL)における最適なポリシーの近似は、多くの現実のシナリオでしばしば必要です。本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。提案手法は,従来のポリシー最適化手法よりもデータ効率が良く,実装が容易であることを示す。
論文参考訳（メタデータ） (2021-03-22T17:26:43Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-15T16:41:00Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。