論文の概要: Beyond Distributions: Geometric Action Control for Continuous Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.08234v1
- Date: Wed, 12 Nov 2025 01:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.711148
- Title: Beyond Distributions: Geometric Action Control for Continuous Reinforcement Learning
- Title(参考訳): 分散を超えて:連続強化学習のための幾何学的アクション制御
- Authors: Zhihao Lin,
- Abstract要約: 計算をシンプルにしながら球面分布の幾何学的利点を保全する新しい行動生成パラダイムである textbfGeometric Action Control (GAC) を提案する。
GACは、動作生成を方向ベクトルと学習可能な集中パラメータに分解し、決定論的動作と一様球面雑音の間の効率的な計算を可能にする。
経験的に、GACは6つのMuJoCoベンチマークの最先端メソッドと一貫して一致し、Ant-v4のSACよりも37.6%改善し、6つのタスクのうち4つで最高の結果を得た。
- 参考スコア(独自算出の注目度): 7.056222499095849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaussian policies have dominated continuous control in deep reinforcement learning (RL), yet they suffer from a fundamental mismatch: their unbounded support requires ad-hoc squashing functions that distort the geometry of bounded action spaces. While von Mises-Fisher (vMF) distributions offer a theoretically grounded alternative on the sphere, their reliance on Bessel functions and rejection sampling hinders practical adoption. We propose \textbf{Geometric Action Control (GAC)}, a novel action generation paradigm that preserves the geometric benefits of spherical distributions while \textit{simplifying computation}. GAC decomposes action generation into a direction vector and a learnable concentration parameter, enabling efficient interpolation between deterministic actions and uniform spherical noise. This design reduces parameter count from \(2d\) to \(d+1\), and avoids the \(O(dk)\) complexity of vMF rejection sampling, achieving simple \(O(d)\) operations. Empirically, GAC consistently matches or exceeds state-of-the-art methods across six MuJoCo benchmarks, achieving 37.6\% improvement over SAC on Ant-v4 and the best results on 4 out of 6 tasks. Our ablation studies reveal that both \textbf{spherical normalization} and \textbf{adaptive concentration control} are essential to GAC's success. These findings suggest that robust and efficient continuous control does not require complex distributions, but a principled respect for the geometry of action spaces. Code and pretrained models are available in supplementary materials.
- Abstract(参考訳): ガウスの政策は、深い強化学習(英語版)(RL)において連続的な制御を支配してきたが、それらは根本的なミスマッチに悩まされている。
von Mises-Fisher (vMF) 分布は理論上は球面上の代替となるが、ベッセル関数への依存と拒絶サンプリングは実践的な採用を妨げる。
本稿では, 球面分布の幾何学的利点を保ちつつ, 計算を単純化する新たなアクション生成パラダイムである, \textbf{Geometric Action Control (GAC)を提案する。
GACは、動作生成を方向ベクトルと学習可能な濃度パラメータに分解し、決定論的動作と一様球面雑音の効率的な補間を可能にする。
この設計はパラメータカウントを \(2d\) から \(d+1\) に減らし、単純な \(O(dk)\) 演算を達成して vMF 拒絶サンプリングの \(O(dk)\) 複雑性を回避する。
経験的に、GACは6つのMuJoCoベンチマークの最先端メソッドと一貫して一致し、Ant-v4のSACよりも37.6%改善され、6つのタスクのうち4つで最高の結果が得られる。
我々のアブレーション研究では, GACの成功には, \textbf{spherical normalization} と \textbf{adaptive concentration control} の両方が不可欠であることが示されている。
これらの結果は、ロバストかつ効率的な連続制御は複雑な分布を必要としないが、作用空間の幾何学に対する原則的な尊重であることを示している。
コードおよび事前訓練されたモデルは補足材料で利用可能である。
関連論文リスト
- Reasoning through Exploration: A Reinforcement Learning Framework for Robust Function Calling [35.97270347306353]
グループ相対政策最適化(GRPO)に基づく新しいRLフレームワークである textbfEGPO を提案する。
EGPOの中核はエントロピー強化の利点関数であり、モデルのChain-of-Thought(CoT)のエントロピーをポリシー勾配に統合する。
挑戦的なBFCL(Berkeley Function Calling Leaderboard)では、EGPOでトレーニングされた4Bパラメータモデルが、同等サイズのモデルの間で新たな最先端を設定している。
論文 参考訳(メタデータ) (2025-08-07T07:51:38Z) - GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。
GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。
我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文 参考訳(メタデータ) (2025-07-02T18:44:03Z) - Distribution Parameter Actor-Critic: Shifting the Agent-Environment Boundary for Diverse Action Spaces [22.711839917754375]
本稿では,分散パラメータをアクションとして扱う新しい強化学習(RL)フレームワークを提案する。
この再化は、元のアクションタイプに関係なく、新しいアクション空間を連続させる。
離散化された行動空間を持つ同じ環境での競合性能を実証する。
論文 参考訳(メタデータ) (2025-06-19T21:19:19Z) - Flow Matching Ergodic Coverage [0.0]
既存のエルゴディックカバレッジ手法は、制御合成に利用可能なエルゴディックメトリクスの限られたセットによって制約される。
本稿では,フローマッチングに基づくエルゴディックカバレッジの代替手法を提案する。この手法は,効率的な,スケーラブルなサンプリングのための生成推論に広く用いられている。
我々の定式化は、既存の制約を克服するジェネレーティブ推論から代替エルゴディックメトリクスを可能にする。
論文 参考訳(メタデータ) (2025-04-24T18:18:35Z) - Disentangled Representation Learning with the Gromov-Monge Gap [65.73194652234848]
乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
本稿では,2次最適輸送に基づく非交叉表現学習手法を提案する。
提案手法の有効性を4つの標準ベンチマークで示す。
論文 参考訳(メタデータ) (2024-07-10T16:51:32Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。