Fugu-MT 論文翻訳(概要): Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

論文の概要: Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

arxiv url: http://arxiv.org/abs/2602.23811v1
Date: Fri, 27 Feb 2026 08:51:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.335075
Title: Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies
Title（参考訳）: State-Wise Mirror Descent:パラメータポリシによるオフラインポリシ最適化
Authors: Xiang Li, Nan Jiang, Yuheng Zhang,
Abstract要約: 鏡面降下と自然政策勾配を結びつけることで,新たな分析,保証,アルゴリズム的洞察がもたらされることを示す。また、鏡面降下と自然政策勾配の結合が、オフラインRLと模倣学習の驚くべき統合につながることを示す。
参考スコア（独自算出の注目度）: 19.781089904199682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the theoretical aspects of offline reinforcement learning (RL) under general function approximation. While prior works (e.g., Xie et al., 2021) have established the theoretical foundations of learning a good policy from offline data via pessimism, existing algorithms that are computationally tractable (often in an oracle-efficient sense), such as PSPI, only apply to finite and small action spaces. Moreover, these algorithms rely on state-wise mirror descent and require actors to be implicitly induced from the critic functions, failing to accommodate standalone policy parameterization which is ubiquitous in practice. In this work, we address these limitations and extend the theoretical guarantees to parameterized policy classes over large or continuous action spaces. When extending mirror descent to parameterized policies, we identify contextual coupling as the core difficulty, and show how connecting mirror descent to natural policy gradient leads to novel analyses, guarantees, and algorithmic insights, including a surprising unification between offline RL and imitation learning.
Abstract（参考訳）: 一般関数近似におけるオフライン強化学習(RL)の理論的側面について検討する。先行研究(例えば、Xie et al , 2021)は、ペシミズムを通じてオフラインデータから良いポリシーを学ぶ理論的基礎を確立してきたが、PSPIのような計算可能(しばしばオラクル効率のよい意味で)な既存のアルゴリズムは、有限かつ小さなアクション空間にのみ適用できる。さらに、これらのアルゴリズムは国家のミラー降下に依存しており、アクターが批判機能から暗黙的に誘導されることを要求する。本研究では、これらの制約に対処し、パラメータ化されたポリシークラスを大規模または連続的なアクション空間上で拡張する。パラメータ化ポリシにミラー降下を拡大する場合、コンテキスト結合を中核的な困難として識別し、ミラー降下と自然政策勾配の結合が、オフラインRLと模倣学習の驚くべき統合を含む新しい分析、保証、アルゴリズム的洞察にどのように結びつくかを示す。

関連論文リスト

Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL [6.224756774400233]
本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, さらなる課題を提示する。対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
論文参考訳（メタデータ） (2025-06-26T00:22:39Z)
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。 APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文参考訳（メタデータ） (2025-03-07T10:35:01Z)
Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文参考訳（メタデータ） (2025-01-08T23:22:08Z)
MoMA: Model-based Mirror Ascent for Offline Reinforcement Learning [5.399953810215838]
オフラインデータの部分的カバレッジ下での一般関数近似を用いたモデルベースミラー昇華アルゴリズムであるMoMAを開発した。 MoMAは、制限のない政策クラスを採用することで、既存の文学と差別化している。 MoMAの有効性は数値的な研究によって実証されている。
論文参考訳（メタデータ） (2024-01-21T03:11:50Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。規則化手法は学習方針と行動方針の分岐を減少させる。本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文参考訳（メタデータ） (2022-02-13T07:38:36Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。