論文の概要: Policy gradient methods for ordinal policies
- arxiv url: http://arxiv.org/abs/2506.18614v1
- Date: Mon, 23 Jun 2025 13:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.992794
- Title: Policy gradient methods for ordinal policies
- Title(参考訳): 条例政策の政策勾配法
- Authors: Simón Weinberger, Jairo Cugliari,
- Abstract要約: 強化学習において、ソフトマックスパラメトリゼーション(英: softmax parametrization)は、離散的な作用空間に対するポリシーの標準的なアプローチである。
強化学習環境に適応した順序回帰モデルに基づく新しい政策パラメトリゼーションを提案する。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, the softmax parametrization is the standard approach for policies over discrete action spaces. However, it fails to capture the order relationship between actions. Motivated by a real-world industrial problem, we propose a novel policy parametrization based on ordinal regression models adapted to the reinforcement learning setting. Our approach addresses practical challenges, and numerical experiments demonstrate its effectiveness in real applications and in continuous action tasks, where discretizing the action space and applying the ordinal policy yields competitive performance.
- Abstract(参考訳): 強化学習において、ソフトマックスパラメトリゼーション(英: softmax parametrization)は、離散的な作用空間に対するポリシーの標準的なアプローチである。
しかし、アクション間の順序関係をキャプチャできない。
実世界の産業問題に触発され、強化学習環境に適応した順序回帰モデルに基づく新しい政策パラメトリゼーションを提案する。
提案手法は実践的な課題に対処し,実応用および連続動作タスクにおける数値実験により,行動空間の離散化と順序ポリシーの適用により,競争性能が向上することを示す。
関連論文リスト
- Reinforcement Learning with Continuous Actions Under Unmeasured Confounding [14.510042451844766]
本稿では,連続行動空間を用いた強化学習におけるオフライン政策学習の課題に対処する。
我々は,ミニマックス推定器を開発し,クラス内最適ポリシーを特定するためのポリシー勾配に基づくアルゴリズムを提案する。
得られた最適方針の整合性、有限サンプル誤差境界、後悔境界に関する理論的結果を提供する。
論文 参考訳(メタデータ) (2025-05-01T04:55:29Z) - Residual Policy Gradient: A Reward View of KL-regularized Objective [48.39829592175419]
強化学習と模倣学習は多くの領域で広く成功しているが、実世界の展開には制約が残っている。
ポリシーのカスタマイズは、その固有の特性を維持しつつ、新しいタスク固有の要件を満たしながら、事前のポリシーに適応することを目的として導入された。
ポリシーのカスタマイズに対する原則的なアプローチはResidual Q-Learning (RQL)であり、マルコフ決定プロセス(MDP)として問題を定式化し、価値に基づく学習アルゴリズムのファミリを導出する。
RQLをポリシーグラデーションメソッドに拡張し、グラデーションベースのRL設定でのポリシーカスタマイズを可能にするResidual Policy Gradient(RPG)を導入する。
論文 参考訳(メタデータ) (2025-03-14T02:30:13Z) - SelfBC: Self Behavior Cloning for Offline Reinforcement Learning [14.573290839055316]
本研究では,これまでに学習したポリシーの指数的移動平均によって生成されたサンプルに対して,学習したポリシーを制約する新しい動的ポリシー制約を提案する。
我々のアプローチは、ほぼ単調に改善された参照ポリシーをもたらす。
論文 参考訳(メタデータ) (2024-08-04T23:23:48Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。