Fugu-MT 論文翻訳(概要): A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic

論文の概要: A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic

arxiv url: http://arxiv.org/abs/2603.28971v1
Date: Mon, 30 Mar 2026 20:14:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:02.770006
Title: A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic
Title（参考訳）: Hamiltonian Actor-Critic を用いたモデルベース強化学習のポントリャーギン法
Authors: Chengyang Gu, Yuxin Pan, Hui Xiong, Yize Chen,
Abstract要約: Hamiltonian Actor-Critic (HAC) は、明示的な値関数学習を排除したモデルベースのアプローチである。値近似を避けることにより、HACは収束保証を認めながらモデルエラーに対する感度を低下させる。限られたデータを持つオフライン設定では、HACは最先端のメソッドと一致または超過し、その強いサンプル効率を強調する。
参考スコア（独自算出の注目度）: 16.49862942485022
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model-based reinforcement learning (MBRL) improves sample efficiency by leveraging learned dynamics models for policy optimization. However, the effectiveness of methods such as actor-critic is often limited by compounding model errors, which degrade long-horizon value estimation. Existing approaches, such as Model-Based Value Expansion (MVE), partially mitigate this issue through multi-step rollouts, but remain sensitive to rollout horizon selection and residual model bias. Motivated by the Pontryagin Maximum Principle (PMP), we propose Hamiltonian Actor-Critic (HAC), a model-based approach that eliminates explicit value function learning by directly optimizing a Hamiltonian defined over the learned dynamics and reward for deterministic systems. By avoiding value approximation, HAC reduces sensitivity to model errors while admitting convergence guarantees. Extensive experiments on continuous control benchmarks, in both online and offline RL settings, demonstrate that HAC outperforms model-free and MVE-based baselines in control performance, convergence speed, and robustness to distributional shift, including out-of-distribution (OOD) scenarios. In offline settings with limited data, HAC matches or exceeds state-of-the-art methods, highlighting its strong sample efficiency.
Abstract（参考訳）: モデルベース強化学習(MBRL)は、学習力学モデルを利用して、政策最適化を行う。しかし、アクター批判のような手法の有効性は、長い水平値の推定を低下させるモデル誤差の複合化によって制限されることが多い。 MVE(Model-Based Value Expansion)のような既存のアプローチは、この問題を複数ステップのロールアウトを通じて部分的に緩和するが、ロールアウトの水平方向選択と残差モデルバイアスに敏感である。 PMP(Pongryagin Maximum Principle)に触発され、学習力学と決定論的システムに対する報酬を直接最適化することにより、明示的な値関数学習を排除し、モデルに基づくアプローチであるHachian Actor-Critic(HAC)を提案する。値近似を避けることにより、HACは収束保証を認めながらモデルエラーに対する感度を低下させる。オンラインとオフラインの両方のRL設定において、継続的制御ベンチマークに関する大規模な実験は、HACが制御性能、収束速度、分散シフトに対する堅牢性において、モデルフリーとMVEベースのベースラインより優れており、アウト・オブ・ディストリビューション(OOD)のシナリオを含んでいることを実証している。限られたデータを持つオフライン設定では、HACは最先端のメソッドと一致または超過し、その強力なサンプル効率を強調している。

論文の概要: A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic

関連論文リスト