論文の概要: Improving Stochastic Action-Constrained Reinforcement Learning via Truncated Distributions
- arxiv url: http://arxiv.org/abs/2511.22406v1
- Date: Thu, 27 Nov 2025 12:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.563041
- Title: Improving Stochastic Action-Constrained Reinforcement Learning via Truncated Distributions
- Title(参考訳): 切断分布による確率的行動制約強化学習の改善
- Authors: Roland Stolz, Michael Eichelbeck, Matthias Althoff,
- Abstract要約: 強化学習(RL)では、安全や行動関連性を確保するために、アクション空間にさらなる制約を加えることが有利であることが多い。
最近の研究は、政策手法に切り離された正規分布を用いることを提案する。
我々は, エントロピー, 対数確率, 勾配勾配などの重要な特性の正確な推定が, 行動制約付きRL設定において重要であることを論じる。
- 参考スコア(独自算出の注目度): 11.34874640197711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), it is often advantageous to consider additional constraints on the action space to ensure safety or action relevance. Existing work on such action-constrained RL faces challenges regarding effective policy updates, computational efficiency, and predictable runtime. Recent work proposes to use truncated normal distributions for stochastic policy gradient methods. However, the computation of key characteristics, such as the entropy, log-probability, and their gradients, becomes intractable under complex constraints. Hence, prior work approximates these using the non-truncated distributions, which severely degrades performance. We argue that accurate estimation of these characteristics is crucial in the action-constrained RL setting, and propose efficient numerical approximations for them. We also provide an efficient sampling strategy for truncated policy distributions and validate our approach on three benchmark environments, which demonstrate significant performance improvements when using accurate estimations.
- Abstract(参考訳): 強化学習(RL)では、安全や行動関連性を確保するために、アクション空間にさらなる制約を加えることが有利であることが多い。
このような行動制約付きRLに関する既存の研究は、効果的なポリシー更新、計算効率、予測可能なランタイムに関する課題に直面している。
近年の研究では, 確率的方針勾配法において, truncated normal distributions を用いる方法が提案されている。
しかし、エントロピーや対数確率、それらの勾配といった重要な特性の計算は、複雑な制約の下では難解になる。
したがって、事前の作業では、これらを非停止分布を用いて近似し、性能を著しく低下させる。
動作制約付きRL設定では,これらの特性の正確な推定が重要であり,効率的な数値近似が提案されている。
また,提案手法を3つのベンチマーク環境に適用し,正確な評価を行う際の性能向上を図っている。
関連論文リスト
- Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning [11.304227281260896]
Q$-値の後方分布を推定するために,多種多様なランダム化値関数を用いた新しい戦略を導入する。
堅牢な不確実性定量化と、$Q$-値の低い信頼境界(LCB)を推定する。
また、ランダム化値関数内の多様性を強調し、ダイバーシティ正規化手法を導入し、ネットワークの必要数を減らすことで効率を向上させる。
論文 参考訳(メタデータ) (2024-04-09T10:15:18Z) - Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability [2.180257135067774]
モデルベース強化学習(RL)のための政策段階的手法を提案する。
ネットワークにおけるマルコフ決定過程(MDP)から得られる定常分布のタイプを利用する。
我々は,SAGEに基づく政策段階が局所的に収束していることを示し,その後悔を得る。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。