論文の概要: A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic
- arxiv url: http://arxiv.org/abs/2603.28971v1
- Date: Mon, 30 Mar 2026 20:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.770006
- Title: A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic
- Title(参考訳): Hamiltonian Actor-Critic を用いたモデルベース強化学習のポントリャーギン法
- Authors: Chengyang Gu, Yuxin Pan, Hui Xiong, Yize Chen,
- Abstract要約: Hamiltonian Actor-Critic (HAC) は、明示的な値関数学習を排除したモデルベースのアプローチである。
値近似を避けることにより、HACは収束保証を認めながらモデルエラーに対する感度を低下させる。
限られたデータを持つオフライン設定では、HACは最先端のメソッドと一致または超過し、その強いサンプル効率を強調する。
- 参考スコア(独自算出の注目度): 16.49862942485022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) improves sample efficiency by leveraging learned dynamics models for policy optimization. However, the effectiveness of methods such as actor-critic is often limited by compounding model errors, which degrade long-horizon value estimation. Existing approaches, such as Model-Based Value Expansion (MVE), partially mitigate this issue through multi-step rollouts, but remain sensitive to rollout horizon selection and residual model bias. Motivated by the Pontryagin Maximum Principle (PMP), we propose Hamiltonian Actor-Critic (HAC), a model-based approach that eliminates explicit value function learning by directly optimizing a Hamiltonian defined over the learned dynamics and reward for deterministic systems. By avoiding value approximation, HAC reduces sensitivity to model errors while admitting convergence guarantees. Extensive experiments on continuous control benchmarks, in both online and offline RL settings, demonstrate that HAC outperforms model-free and MVE-based baselines in control performance, convergence speed, and robustness to distributional shift, including out-of-distribution (OOD) scenarios. In offline settings with limited data, HAC matches or exceeds state-of-the-art methods, highlighting its strong sample efficiency.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、学習力学モデルを利用して、政策最適化を行う。
しかし、アクター批判のような手法の有効性は、長い水平値の推定を低下させるモデル誤差の複合化によって制限されることが多い。
MVE(Model-Based Value Expansion)のような既存のアプローチは、この問題を複数ステップのロールアウトを通じて部分的に緩和するが、ロールアウトの水平方向選択と残差モデルバイアスに敏感である。
PMP(Pongryagin Maximum Principle)に触発され、学習力学と決定論的システムに対する報酬を直接最適化することにより、明示的な値関数学習を排除し、モデルに基づくアプローチであるHachian Actor-Critic(HAC)を提案する。
値近似を避けることにより、HACは収束保証を認めながらモデルエラーに対する感度を低下させる。
オンラインとオフラインの両方のRL設定において、継続的制御ベンチマークに関する大規模な実験は、HACが制御性能、収束速度、分散シフトに対する堅牢性において、モデルフリーとMVEベースのベースラインより優れており、アウト・オブ・ディストリビューション(OOD)のシナリオを含んでいることを実証している。
限られたデータを持つオフライン設定では、HACは最先端のメソッドと一致または超過し、その強力なサンプル効率を強調している。
関連論文リスト
- A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。