論文の概要: RN-D: Discretized Categorical Actors with Regularized Networks for On-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.23075v1
- Date: Fri, 30 Jan 2026 15:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.526922
- Title: RN-D: Discretized Categorical Actors with Regularized Networks for On-Policy Reinforcement Learning
- Title(参考訳): RN-D:On-Policy Reinforcement Learningのための正規化ネットワークを持つ離散化カテゴリアクター
- Authors: Yuexin Bian, Jie Feng, Tao Wang, Yijiang Li, Sicun Gao, Yuanyuan Shi,
- Abstract要約: 我々は、政策表現を、オン・ポリティクス最適化のための第一級の設計選択として再考する。
我々は,各行動次元をビン上の分布で表わす離散化されたカテゴリー的アクターについて検討し,クロスエントロピー損失に類似した政策目標を導出する。
その結果,標準的なアクターネットワークを離散化された正規化アクターに置き換えれば,一貫した利得が得られることがわかった。
- 参考スコア(独自算出の注目度): 27.45103393884625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy deep reinforcement learning remains a dominant paradigm for continuous control, yet standard implementations rely on Gaussian actors and relatively shallow MLP policies, often leading to brittle optimization when gradients are noisy and policy updates must be conservative. In this paper, we revisit policy representation as a first-class design choice for on-policy optimization. We study discretized categorical actors that represent each action dimension with a distribution over bins, yielding a policy objective that resembles a cross-entropy loss. Building on architectural advances from supervised learning, we further propose regularized actor networks, while keeping critic design fixed. Our results show that simply replacing the standard actor network with our discretized regularized actor yields consistent gains and achieve the state-of-the-art performance across diverse continuous-control benchmarks.
- Abstract(参考訳): しかし、標準的な実装はガウシアンアクターと比較的浅いMPPポリシーに依存しており、勾配がうるさく、政策更新が保守的でなければならない場合、しばしば不安定な最適化につながる。
本稿では,政策表現をオン・ポリティクスの最適化のための一級設計選択として再考する。
我々は,各行動次元をビン上の分布で表わす離散化されたカテゴリー的アクターについて検討し,クロスエントロピー損失に類似した政策目標を導出する。
教師付き学習によるアーキテクチャの進歩を基盤として,批判設計の修正を保ちながら,正規化されたアクターネットワークを提案する。
この結果から,標準的なアクターネットワークを離散化された正規化アクターネットワークに置き換えれば,一貫した利得が得られることがわかった。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - Actor-Critic without Actor [4.94481688445056]
Actor-Critic without Actor (ACA)はアクターネットワークを排除し、ノイズレベルの批評家の分野から直接アクションを生成する軽量なフレームワークである。
ACAは、標準的なアクター批判法と最先端拡散法の両方と比較して、より好ましい学習曲線と競争性能を達成する。
論文 参考訳(メタデータ) (2025-09-25T11:33:09Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。