論文の概要: End-to-end Training of High-Dimensional Optimal Control with Implicit Hamiltonians via Jacobian-Free Backpropagation
- arxiv url: http://arxiv.org/abs/2510.00359v1
- Date: Wed, 01 Oct 2025 00:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.182609
- Title: End-to-end Training of High-Dimensional Optimal Control with Implicit Hamiltonians via Jacobian-Free Backpropagation
- Title(参考訳): ジャコビアンフリーバックプロパゲーションによる不入ハミルトニアンを用いた高次元最適制御のエンドツーエンドトレーニング
- Authors: Eric Gelphman, Deepanshu Verma, Nicole Tianjiao Yang, Stanley Osher, Samy Wu Fung,
- Abstract要約: 本稿では,値関数を直接パラメータ化して最適制御法を学習する,エンドツーエンドの暗黙的深層学習手法を提案する。
提案手法は暗黙ハミルトニアンを含む複数のシナリオにまたがる高次元フィードバックコントローラを効果的に学習することを示す。
- 参考スコア(独自算出の注目度): 0.8244545230770907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network approaches that parameterize value functions have succeeded in approximating high-dimensional optimal feedback controllers when the Hamiltonian admits explicit formulas. However, many practical problems, such as the space shuttle reentry problem and bicycle dynamics, among others, may involve implicit Hamiltonians that do not admit explicit formulas, limiting the applicability of existing methods. Rather than directly parameterizing controls, which does not leverage the Hamiltonian's underlying structure, we propose an end-to-end implicit deep learning approach that directly parameterizes the value function to learn optimal control laws. Our method enforces physical principles by ensuring trained networks adhere to the control laws by exploiting the fundamental relationship between the optimal control and the value function's gradient; this is a direct consequence of the connection between Pontryagin's Maximum Principle and dynamic programming. Using Jacobian-Free Backpropagation (JFB), we achieve efficient training despite temporal coupling in trajectory optimization. We show that JFB produces descent directions for the optimal control objective and experimentally demonstrate that our approach effectively learns high-dimensional feedback controllers across multiple scenarios involving implicit Hamiltonians, which existing methods cannot address.
- Abstract(参考訳): 値関数をパラメータ化するニューラルネットワークアプローチは、ハミルトニアンが明示的な公式を認めると、高次元最適フィードバックコントローラの近似に成功している。
しかし、スペースシャトルの再突入問題や自転車の動力学などの多くの実践的な問題は、明示的な公式を認めない暗黙のハミルトン派を巻き込み、既存の方法の適用性を制限する可能性がある。
ハミルトニアンの基本構造を生かしていない制御を直接パラメータ化するのではなく、最適制御法を学習するために値関数を直接パラメータ化するエンド・ツー・エンドの暗黙的なディープラーニングアプローチを提案する。
本手法は、最適制御と値関数の勾配の基本的な関係を利用して、トレーニングされたネットワークが制御則に従うことを保証し、物理原理を強制する。
ヤコビアンフリーバックプロパゲーション (JFB) を用いて, 軌道最適化における時間的結合に拘わらず, 効率的なトレーニングを実現する。
我々は,JFBが最適制御対象の降下方向を生成することを実証し,既存の手法では対応できない暗黙のハミルトニアンを含む複数のシナリオにわたる高次元フィードバックコントローラを効果的に学習できることを実験的に示す。
関連論文リスト
- Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。
ヒオンコントローラは将来の状態を推定し、ポントリャーギンの最大原理を用いた最適制御戦略を開発する。
論文 参考訳(メタデータ) (2024-11-02T16:06:29Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Optimal Control of Nonlinear Systems with Unknown Dynamics [4.551160285910024]
本稿では,閉ループ最適制御器の探索のためのデータ駆動方式を提案する。
任意の初期状態が与えられた未知の力学を持つ系に対する特定の無限水平コスト関数を最小化する。
論文 参考訳(メタデータ) (2023-05-24T14:27:22Z) - Introduction to Online Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Physics-informed neural networks via stochastic Hamiltonian dynamics learning [3.2857981869020327]
最適制御問題に対処するための新しい学習フレームワークを提案する。
ポントリャーギンの最大原理を元の最適制御問題に適用することは、学習焦点をハミルトン力学の減少にシフトさせる。
我々は,NeuralPMPと呼ばれる学習フレームワークを様々な制御タスクに適用し,競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-15T22:13:43Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。