Fugu-MT 論文翻訳(概要): FastDSAC: Unlocking the Potential of Maximum Entropy RL in High-Dimensional Humanoid Control

論文の概要: FastDSAC: Unlocking the Potential of Maximum Entropy RL in High-Dimensional Humanoid Control

arxiv url: http://arxiv.org/abs/2603.12612v1
Date: Fri, 13 Mar 2026 03:27:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.874573
Title: FastDSAC: Unlocking the Potential of Maximum Entropy RL in High-Dimensional Humanoid Control
Title（参考訳）: FastDSAC:高次元ヒューマノイド制御における最大エントロピーRLの可能性の解錠
Authors: Jun Xue, Junze Wang, Xinming Zhang, Shanze Wang, Yanjun Chen, Wei Zhang,
Abstract要約: FastDSACは、複雑な連続制御のための最大エントロピーポリシーの可能性を効果的に解放するフレームワークである。次元ワイドエントロピー変調は、決定論的基底線に一貫して一致するか、より優れることを示す。
参考スコア（独自算出の注目度）: 11.290780700142745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling Maximum Entropy Reinforcement Learning (RL) to high-dimensional humanoid control remains a formidable challenge, as the ``curse of dimensionality'' induces severe exploration inefficiency and training instability in expansive action spaces. Consequently, recent high-throughput paradigms have largely converged on deterministic policy gradients combined with massive parallel simulation. We challenge this compromise with FastDSAC, a framework that effectively unlocks the potential of maximum entropy stochastic policies for complex continuous control. We introduce Dimension-wise Entropy Modulation (DEM) to dynamically redistribute the exploration budget and enforce diversity, alongside a continuous distributional critic tailored to ensure value fidelity and mitigate high-dimensional value overestimation. Extensive evaluations on HumanoidBench and other continuous control tasks demonstrate that rigorously designed stochastic policies can consistently match or outperform deterministic baselines, achieving notable gains of 180\% and 400\% on the challenging \textit{Basketball} and \textit{Balance Hard} tasks.
Abstract（参考訳）: 最大エントロピー強化学習(RL)を高次元ヒューマノイド制御に拡張することは依然として困難な課題であり、「次元の計算」は、拡張的な行動空間における厳密な探索の非効率性と訓練の不安定性を誘導する。その結果、最近の高スループットのパラダイムは、決定論的政策勾配と大規模な並列シミュレーションに大きく収束している。我々は、複雑な連続制御のための最大エントロピー確率ポリシーの可能性を効果的に解き放つフレームワークであるFastDSACによるこの妥協に挑戦する。本稿では,DEM(Dmension-wise Entropy Modulation)を導入し,調査予算を動的に再分配し,多様性を強制すると共に,価値の忠実さの確保と高次元価値過大評価の軽減を目的とした継続的分布批判を行う。 HumanoidBench や他の連続制御タスクに対する広範囲な評価は、厳密に設計された確率的ポリシーが決定論的基準に一貫して適合し、挑戦的な \textit{Basketball} と \textit{Balance Hard} のタスクで 180 % と 400 % の顕著なゲインを達成できることを示している。

関連論文リスト

Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文参考訳（メタデータ） (2025-10-25T09:17:47Z)
ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文参考訳（メタデータ） (2025-10-13T20:05:34Z)
Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文参考訳（メタデータ） (2025-10-13T03:10:26Z)
Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。 RRPOは双対の定式化に頼ることなく、主問題に直接作用する。我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文参考訳（メタデータ） (2025-08-24T16:59:38Z)
Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文参考訳（メタデータ） (2024-02-04T15:54:03Z)
Adjacency constraint for efficient hierarchical reinforcement learning [25.15808501708926]
目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。 HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
論文参考訳（メタデータ） (2021-10-30T09:26:45Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。