論文の概要: Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients
- arxiv url: http://arxiv.org/abs/2605.14297v1
- Date: Thu, 14 May 2026 02:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.593777
- Title: Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients
- Title(参考訳): 混合勾配によるハイブリッド離散連続行動空間の政策最適化
- Authors: Matias Alvo, Daniel Russo, Yash Kanoria,
- Abstract要約: ハイブリッド離散連続行動空間における強化学習について検討する。
本研究では,スムーズさが許す限り,シミュレータをバックプロパゲートするHybrid Policy Optimization (HPO)を提案する。
HPOは在庫管理においてPPOを大幅に上回り、リニアクアクラティックレギュレータの問題に切り替えた。
- 参考スコア(独自算出の注目度): 3.1698277542519997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning in hybrid discrete-continuous action spaces, such as settings where the discrete component selects a regime (or index) and the continuous component optimizes within it -- a structure common in robotics, control, and operations problems. Standard model-free policy gradient methods rely on score-function (SF) estimators and suffer from severe credit-assignment issues in high-dimensional settings, leading to poor gradient quality. On the other hand, differentiable simulation largely sidesteps these issues by backpropagating through a simulator, but the presence of discrete actions or non-smooth dynamics yields biased or uninformative gradients. To address this, we propose Hybrid Policy Optimization (HPO), which backpropagates through the simulator wherever smoothness permits, using a mixed gradient estimator that combines pathwise and SF gradients while maintaining unbiasedness. We also show how problems with action discontinuities can be reformulated in hybrid form, further broadening its applicability. Empirically, HPO substantially outperforms PPO on inventory control and switched linear-quadratic regulator problems, with performance gaps increasing as the continuous action dimension grows. Finally, we characterize the structure of the mixed gradient, showing that its cross term -- which captures how continuous actions influence future discrete decisions -- becomes negligible near a discrete best response, thereby enabling approximate decentralized updates of the continuous and discrete components and reducing variance near optimality. All resources are available at github.com/MatiasAlvo/hybrid-rl.
- Abstract(参考訳): 離散的なコンポーネントがレジーム(またはインデックス)を選択し、連続的なコンポーネントが内部で最適化される設定など、ハイブリッドな離散連続的なアクション空間における強化学習について研究する。
標準モデルフリー政策勾配法はスコア関数(SF)推定器に依存しており、高次元設定で深刻な信用割当問題に悩まされ、勾配品質が低下する。
一方、微分可能シミュレーションは、シミュレータを通してバックプロパゲートすることで、これらの問題を大半を横取りするが、離散的な作用や非滑らかなダイナミクスの存在はバイアスあるいは非形式的な勾配をもたらす。
そこで本稿では,不偏性を維持しつつ,パスワイズとSF勾配を組み合わせた混合勾配推定器を用いて,スムーズ性のあるシミュレータをバックプロパゲートするHybrid Policy Optimization (HPO)を提案する。
また, 動作不連続性の問題がハイブリッド形式でどのように修正され, 適用性をさらに拡大するかを示す。
経験的には、HPOは在庫管理においてPPOを大幅に上回り、連続的なアクション次元が大きくなるにつれて性能ギャップが増大する。
最後に、混合勾配の構造を特徴付け、連続的な動作が将来の離散的な決定にどのように影響するかを捉えるクロス項が、離散的最適応答の近傍で無視可能であることを示し、連続的および離散的コンポーネントのほぼ非集中的な更新を可能にし、最適性に近い分散を減少させる。
すべてのリソースはgithub.com/MatiasAlvo/hybrid-rlで利用可能である。
関連論文リスト
- On-Average Stability of Multipass Preconditioned SGD and Effective Dimension [15.521925194920891]
我々は,マルチパスプレコンディショニング・グラディエント・ディフレッシュ(PSGD)の一般化能力に関する,集団リスク曲率,騒音形状,プレコンディショニングのトレードオフについて検討する。
特に、不適切に選択されたプレコンディショナーは、最適化と一般化の両方において、最適以下の有効次元依存性が得られることを示す。
論文 参考訳(メタデータ) (2026-03-12T14:41:44Z) - Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - Hybrid TD3: Overestimation Bias Analysis and Stable Policy Optimization for Hybrid Action Space [2.4382430407654767]
本稿では、パラメータ化されたハイブリッドアクション空間を原則的に処理するTD3(Twin Delayed Deep Deterministic Policy Gradient)の拡張であるHybrid TD3を提案する。
我々は,ハイブリッド行動設定における過大評価バイアスの理論的解析を行い,双極的アーキテクチャの下での形式的境界を導出する。
本稿では、離散的な行動分布を極小化して、標準的なクリッピング最小化に等価なバイアス低減を実現する重み付きQ-ラーニングターゲットを提案する。
論文 参考訳(メタデータ) (2026-03-01T22:16:27Z) - Certified Gradient-Based Contact-Rich Manipulation via Smoothing-Error Reachable Tubes [5.119652071085673]
我々は接触リッチな操作のための新しい勾配に基づくポリシー合成法を開発した。
提案手法は,平面プッシュ,オブジェクト回転,手動操作など,複数の接触に富むタスクに対して評価する。
定値ロバスト制御で微分可能な物理をブリッジすることにより,接触リッチな操作を行うための,初めて証明可能な勾配式ポリシー合成法である。
論文 参考訳(メタデータ) (2026-02-10T03:19:42Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。