Fugu-MT 論文翻訳(概要): Central Path Proximal Policy Optimization

論文の概要: Central Path Proximal Policy Optimization

arxiv url: http://arxiv.org/abs/2506.00700v1
Date: Sat, 31 May 2025 20:14:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.490622
Title: Central Path Proximal Policy Optimization
Title（参考訳）: 中央経路政策最適化
Authors: Nikola Milosevic, Johannes Müller, Nico Scherf,
Abstract要約: 本稿では、制約された最適化問題の中央経路に近いポリシーを反復するPPOの簡易な修正であるCentral Path Proximal Policy Optimization (C3PO)を紹介する。 C3POは、より厳格な制約執行によるパフォーマンス向上を実現し、中央のパス誘導更新が制約されたポリシー最適化に有望な方向を提供することを示唆している。
参考スコア（独自算出の注目度）: 1.5733417396701983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In constrained Markov decision processes, enforcing constraints during training is often thought of as decreasing the final return. Recently, it was shown that constraints can be incorporated directly in the policy geometry, yielding an optimization trajectory close to the central path of a barrier method, which does not compromise final return. Building on this idea, we introduce Central Path Proximal Policy Optimization (C3PO), a simple modification of PPO that produces policy iterates, which stay close to the central path of the constrained optimization problem. Compared to existing on-policy methods, C3PO delivers improved performance with tighter constraint enforcement, suggesting that central path-guided updates offer a promising direction for constrained policy optimization.
Abstract（参考訳）: 制約付きマルコフ決定プロセスでは、トレーニング中の制約を強制することは、最終的なリターンを減少させると考えられることが多い。近年、制約を政策幾何学に直接組み込むことができ、最終的な回帰を損なわない障壁法の中心経路に近い最適化軌道が得られることが示されている。このアイデアに基づいて、制約された最適化問題の中央経路に近づいたポリシイテレートを生成するPPOの簡易な修正であるCentral Path Proximal Policy Optimization (C3PO)を導入する。既存のオンライン手法と比較して、C3POはより厳密な制約執行によるパフォーマンスの向上を実現しており、中央経路誘導更新が制約されたポリシー最適化のための有望な方向を提供することを示唆している。

関連論文リスト

Clipping-Free Policy Optimization for Large Language Models [30.663054788473598]
強化学習は、訓練後の大規模言語モデルの中心となっている。支配的なアルゴリズムは、大規模に最適化問題を導入するためのクリッピング機構に依存しています。本稿では,クリッピングを全変動ばらつき制約から導いた凸ペナルティに置き換えるクリッピング自由政策最適化を提案する。
論文参考訳（メタデータ） (2026-01-30T10:32:37Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Fast Policy Learning for Linear Quadratic Control with Entropy Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文参考訳（メタデータ） (2023-11-23T19:08:39Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文参考訳（メタデータ） (2023-06-18T15:50:57Z)
Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文参考訳（メタデータ） (2023-05-23T16:33:55Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。勾配に基づく解法を用いる場合、REPSの性能には保証がない。最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文参考訳（メタデータ） (2021-03-17T16:22:59Z)
Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文参考訳（メタデータ） (2020-10-20T23:25:42Z)
Projection-Based Constrained Policy Optimization [34.555500347840805]
我々は,PCPO (Projection-based Constrained Policy Optimization) という新しいアルゴリズムを提案する。 PCPOは、最先端の手法に比べて3.5倍以上の制約違反と約15%の報酬を達成している。
論文参考訳（メタデータ） (2020-10-07T04:22:45Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。