Fugu-MT 論文翻訳(概要): On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning

論文の概要: On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.04108v3
Date: Thu, 23 Oct 2025 20:48:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 09:00:14.73694
Title: On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning
Title（参考訳）: 汎用性強化学習における政策グラディエント手法のグローバル最適性について
Authors: Anas Barakat, Souradip Chakraborty, Peihong Yu, Pratap Tokekar, Amrit Singh Bedi,
Abstract要約: 汎用ユーティリティ(RLGU)による強化学習は、標準的な期待したリターンを超えた問題をキャプチャする統一フレームワークを提供する。標準RL政策勾配法(PG法)の理論的解析の最近の進歩とRLGUにおける最近の取り組みは依然として限られている。 RLGUにおけるPG手法のグローバルな最適性保証を確立する。
参考スコア（独自算出の注目度）: 30.767979998925437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with general utilities (RLGU) offers a unifying framework to capture several problems beyond standard expected returns, including imitation learning, pure exploration, and safe RL. Despite recent fundamental advances in the theoretical analysis of policy gradient (PG) methods for standard RL and recent efforts in RLGU, the understanding of these PG algorithms and their scope of application in RLGU still remain limited. In this work, we establish global optimality guarantees of PG methods for RLGU in which the objective is a general concave utility function of the state-action occupancy measure. In the tabular setting, we provide global optimality results using a new proof technique building on recent theoretical developments on the convergence of PG methods for standard RL using gradient domination. Our proof technique opens avenues for analyzing policy parameterizations beyond the direct policy parameterization for RLGU. In addition, we provide global optimality results for large state-action space settings beyond prior work which has mostly focused on the tabular setting. In this large scale setting, we adapt PG methods by approximating occupancy measures within a function approximation class using maximum likelihood estimation. Our sample complexity only scales with the dimension induced by our approximation class instead of the size of the state-action space.
Abstract（参考訳）: 汎用ユーティリティによる強化学習(RLGU)は、模倣学習、純粋な探索、安全なRLを含む、標準的な期待されたリターンを超えて、いくつかの問題をキャプチャする統一フレームワークを提供する。標準RLのポリシー勾配法(PG)の理論的解析と最近のRCGUの取り組みの進歩にもかかわらず、これらのPGアルゴリズムの理解とRLGUにおける適用範囲は依然として限られている。本研究では, RLGU における PG 手法のグローバルな最適性保証を確立する。表形式では、勾配支配を用いた標準RLに対するPG法の収束に関する最近の理論的発展に基づく新しい証明手法を用いて、大域的最適性結果を提供する。 RLGUの方針パラメータ化以外の政策パラメータ化を解析する手法が提案されている。さらに,表の設定に主に焦点をあてた先行作業以上の大規模な状態行動空間設定に対して,グローバルな最適性結果を提供する。この大規模設定では,最大推定値を用いて関数近似クラス内の占有度を近似することでPG手法を適用する。我々のサンプルの複雑さは、状態-作用空間のサイズではなく近似クラスによって誘導される次元でしかスケールしない。

関連論文リスト

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic [12.256817975993128]
相対的ポリシー最適化はDeepSeekMathとDeepSeek-R1の中核となる方法論的コンポーネントである。本稿では,従来のU-統計学のレンズを通してGRPOを理解するための統一的な枠組みを提供する。
論文参考訳（メタデータ） (2026-03-01T15:56:43Z)
Performative Policy Gradient: Optimality in Performative Reinforcement Learning [13.777823115521665]
デプロイ後の機械学習アルゴリズムは、しばしば彼らが行動する環境に影響を与える。我々はPerformative Policy Gradient Algorithm (PePG)を紹介する。 PePGは性能的に最適な政策、すなわち自分自身によって誘導される分布シフトの下で最適な政策に収束する。
論文参考訳（メタデータ） (2025-12-23T18:20:06Z)
Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文参考訳（メタデータ） (2023-09-27T16:42:10Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文参考訳（メタデータ） (2023-07-08T15:41:48Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Policy Optimization over General State and Action Spaces [3.722665817361884]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文参考訳（メタデータ） (2022-11-30T03:44:44Z)
Structural Estimation of Markov Decision Processes in High-Dimensional State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-04T00:11:38Z)
Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文参考訳（メタデータ） (2022-08-17T18:49:53Z)
Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-01T19:18:15Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。これらの問題に対する新規で簡単な最適化法を開発した。結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文参考訳（メタデータ） (2021-09-23T17:38:24Z)
A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。 PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文参考訳（メタデータ） (2021-07-23T19:38:17Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Amortized Conditional Normalized Maximum Likelihood: Reliable Out of Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文参考訳（メタデータ） (2020-11-05T08:04:34Z)
Measure Theoretic Approach to Nonuniform Learnability [16.467540842571328]
非一様学習性のキャラクタリゼーションは測定理論を用いて再定義されている。このアプローチを実装するための新しいアルゴリズム、Generalize Measure Learnabilityフレームワークの導入。 GMLフレームワークを適用することが可能な、仮説クラスなど、多くの状況が提示された。
論文参考訳（メタデータ） (2020-11-01T01:03:26Z)
Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。この結果から, エントロピー正則化の役割を浮き彫りにした。
論文参考訳（メタデータ） (2020-07-13T17:58:41Z)
When Will Generative Adversarial Imitation Learning Algorithms Attain Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文参考訳（メタデータ） (2020-06-24T06:24:37Z)
Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文参考訳（メタデータ） (2020-06-18T19:36:22Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)
A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文参考訳（メタデータ） (2020-01-08T10:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。