論文の概要: On Geometric Structures for Policy Parameterization in Continuous Control
- arxiv url: http://arxiv.org/abs/2511.08234v2
- Date: Sun, 16 Nov 2025 21:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.200109
- Title: On Geometric Structures for Policy Parameterization in Continuous Control
- Title(参考訳): 連続制御における政策パラメータ化のための幾何学的構造について
- Authors: Zhihao Lin,
- Abstract要約: 本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。
本手法は,動作を決定論的方向ベクトルと学習可能な濃度に分解し,目標方向と一様雑音との効率性を実現する。
実証的に、我々の手法は標準的な連続制御ベンチマークで最先端の手法と一致するか超えている。
- 参考スコア(独自算出の注目度): 7.056222499095849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard stochastic policies for continuous control often rely on ad-hoc boundary-enforcing transformations (e.g., tanh) which can distort the underlying optimization landscape and introduce gradient pathologies. While alternative parameterizations on the unit manifold (e.g., directional distributions) are theoretically appealing, their computational complexity (often requiring special functions or rejection sampling) has limited their practical use. We propose a novel, computationally efficient action generation paradigm that preserves the structural benefits of operating on a unit manifold. Our method decomposes the action into a deterministic directional vector and a learnable concentration scalar, enabling efficient interpolation between the target direction and uniform noise on the unit manifold. This design can reduce policy head parameters by nearly 50\% (from $2d$ to $d+1$) and maintains a simple $O(d)$ sampling complexity, avoiding costly sampling procedures. Empirically, our method matches or exceeds state-of-the-art methods on standard continuous control benchmarks, with significant improvements (e.g., +37.6\% and +112\%) on high-dimensional locomotion tasks. Ablation studies confirm that both the unit-norm normalization and the adaptive concentration mechanism are essential to the method's success. These findings suggest that robust, efficient control can be achieved by explicitly respecting the structure of bounded action spaces, rather than relying on complex, unbounded distributions. Code is available in supplementary materials.
- Abstract(参考訳): 継続的制御のための標準的な確率的ポリシーは、しばしばアドホックな境界付き変換(例: tanh)に依存する。
単位多様体上の別のパラメータ化(例えば、方向分布)は理論的に魅力的であるが、その計算複雑性(しばしば特殊関数や拒絶サンプリングを必要とする)は実用的利用を制限している。
本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。
本手法は, 決定論的方向ベクトルと学習可能な濃度スカラーに分解し, 対象方向と単位多様体上の一様雑音との効率的な補間を可能にする。
この設計はポリシーヘッドパラメータを約50\%($d$から$d+1$)に減らし、単純な$O(d)$サンプリングの複雑さを維持し、コストのかかるサンプリング手順を避ける。
実験により,本手法は標準連続制御ベンチマークにおける最先端の手法に適合し,高次元の移動タスクにおいて重要な改善(例えば,+37.6\%,+112\%)を施した。
アブレーション研究は、単位ノルム正規化と適応濃度機構の両方が、この手法の成功に不可欠であることを確認した。
これらの結果は、複雑で非有界な分布に頼るのではなく、有界な作用空間の構造を明示的に尊重することで、堅牢で効率的な制御を実現することができることを示唆している。
コードは補足資料で利用できる。
関連論文リスト
- Reasoning through Exploration: A Reinforcement Learning Framework for Robust Function Calling [35.97270347306353]
グループ相対政策最適化(GRPO)に基づく新しいRLフレームワークである textbfEGPO を提案する。
EGPOの中核はエントロピー強化の利点関数であり、モデルのChain-of-Thought(CoT)のエントロピーをポリシー勾配に統合する。
挑戦的なBFCL(Berkeley Function Calling Leaderboard)では、EGPOでトレーニングされた4Bパラメータモデルが、同等サイズのモデルの間で新たな最先端を設定している。
論文 参考訳(メタデータ) (2025-08-07T07:51:38Z) - GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。
GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。
我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文 参考訳(メタデータ) (2025-07-02T18:44:03Z) - Distribution Parameter Actor-Critic: Shifting the Agent-Environment Boundary for Diverse Action Spaces [22.711839917754375]
本稿では,分散パラメータをアクションとして扱う新しい強化学習(RL)フレームワークを提案する。
この再化は、元のアクションタイプに関係なく、新しいアクション空間を連続させる。
離散化された行動空間を持つ同じ環境での競合性能を実証する。
論文 参考訳(メタデータ) (2025-06-19T21:19:19Z) - Flow Matching Ergodic Coverage [0.0]
既存のエルゴディックカバレッジ手法は、制御合成に利用可能なエルゴディックメトリクスの限られたセットによって制約される。
本稿では,フローマッチングに基づくエルゴディックカバレッジの代替手法を提案する。この手法は,効率的な,スケーラブルなサンプリングのための生成推論に広く用いられている。
我々の定式化は、既存の制約を克服するジェネレーティブ推論から代替エルゴディックメトリクスを可能にする。
論文 参考訳(メタデータ) (2025-04-24T18:18:35Z) - Disentangled Representation Learning with the Gromov-Monge Gap [65.73194652234848]
乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
本稿では,2次最適輸送に基づく非交叉表現学習手法を提案する。
提案手法の有効性を4つの標準ベンチマークで示す。
論文 参考訳(メタデータ) (2024-07-10T16:51:32Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。