論文の概要: End-to-End Training of High-Dimensional Optimal Control with Implicit Hamiltonians via Jacobian-Free Backpropagation
- arxiv url: http://arxiv.org/abs/2510.00359v2
- Date: Tue, 07 Oct 2025 02:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.441475
- Title: End-to-End Training of High-Dimensional Optimal Control with Implicit Hamiltonians via Jacobian-Free Backpropagation
- Title(参考訳): ジャコビアンフリーバックプロパゲーションによる不入ハミルトニアンを用いた高次元最適制御のエンドツーエンドトレーニング
- Authors: Eric Gelphman, Deepanshu Verma, Nicole Tianjiao Yang, Stanley Osher, Samy Wu Fung,
- Abstract要約: 本稿では,値関数を直接パラメータ化して最適制御法を学習する,エンドツーエンドの暗黙的深層学習手法を提案する。
提案手法は暗黙ハミルトニアンを含む複数のシナリオにまたがる高次元フィードバックコントローラを効果的に学習することを示す。
- 参考スコア(独自算出の注目度): 0.8244545230770907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network approaches that parameterize value functions have succeeded in approximating high-dimensional optimal feedback controllers when the Hamiltonian admits explicit formulas. However, many practical problems, such as the space shuttle reentry problem and bicycle dynamics, among others, may involve implicit Hamiltonians that do not admit explicit formulas, limiting the applicability of existing methods. Rather than directly parameterizing controls, which does not leverage the Hamiltonian's underlying structure, we propose an end-to-end implicit deep learning approach that directly parameterizes the value function to learn optimal control laws. Our method enforces physical principles by ensuring trained networks adhere to the control laws by exploiting the fundamental relationship between the optimal control and the value function's gradient; this is a direct consequence of the connection between Pontryagin's Maximum Principle and dynamic programming. Using Jacobian-Free Backpropagation (JFB), we achieve efficient training despite temporal coupling in trajectory optimization. We show that JFB produces descent directions for the optimal control objective and experimentally demonstrate that our approach effectively learns high-dimensional feedback controllers across multiple scenarios involving implicit Hamiltonians, which existing methods cannot address.
- Abstract(参考訳): 値関数をパラメータ化するニューラルネットワークアプローチは、ハミルトニアンが明示的な公式を認めると、高次元最適フィードバックコントローラの近似に成功している。
しかし、スペースシャトルの再突入問題や自転車の動力学などの多くの実践的な問題は、明示的な公式を認めない暗黙のハミルトン派を巻き込み、既存の方法の適用性を制限する可能性がある。
ハミルトニアンの基本構造を生かしていない制御を直接パラメータ化するのではなく、最適制御法を学習するために値関数を直接パラメータ化するエンド・ツー・エンドの暗黙的なディープラーニングアプローチを提案する。
本手法は、最適制御と値関数の勾配の基本的な関係を利用して、トレーニングされたネットワークが制御則に従うことを保証し、物理原理を強制する。
ヤコビアンフリーバックプロパゲーション (JFB) を用いて, 軌道最適化における時間的結合に拘わらず, 効率的なトレーニングを実現する。
我々は,JFBが最適制御対象の降下方向を生成することを実証し,既存の手法では対応できない暗黙のハミルトニアンを含む複数のシナリオにわたる高次元フィードバックコントローラを効果的に学習できることを実験的に示す。
関連論文リスト
- Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - On the Convergence of Jacobian-Free Backpropagation for Optimal Control Problems with Implicit Hamiltonians [0.8244545230770907]
暗黙的なハミルトニアンによる最適フィードバック制御は、学習に基づく値関数法に根本的な課題をもたらす。
最近のWorkcitegelphman2025endでは、Jacobian-Free Backpropagation (JFB)を使って暗黙のディープラーニングアプローチを導入している。
我々は、JFBの収束保証をミニバッチ設定で確立し、その結果の更新が期待される最適制御目標の定常点に収束することを示す。
論文 参考訳(メタデータ) (2026-01-31T22:25:46Z) - Neural Hamiltonian Operator [2.1756081703276]
従来の動的プログラミングの代替としてポントリャーギンの最大原理(PMP)がある。
そこで本稿では,textbfNeural Hamiltonian Operator (NHO) の定義により,このような問題をディープラーニングで解くための形式的枠組みを提案する。
PMPによって規定される一貫性条件を強制するために、基礎となるネットワークをトレーニングすることで、最適なNHOを見つける方法を示す。
論文 参考訳(メタデータ) (2025-07-02T02:56:49Z) - Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。
ヒオンコントローラは将来の状態を推定し、ポントリャーギンの最大原理を用いた最適制御戦略を開発する。
論文 参考訳(メタデータ) (2024-11-02T16:06:29Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Optimal Control of Nonlinear Systems with Unknown Dynamics [4.551160285910024]
本稿では,閉ループ最適制御器の探索のためのデータ駆動方式を提案する。
任意の初期状態が与えられた未知の力学を持つ系に対する特定の無限水平コスト関数を最小化する。
論文 参考訳(メタデータ) (2023-05-24T14:27:22Z) - Introduction to Online Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Physics-informed neural networks via stochastic Hamiltonian dynamics learning [3.2857981869020327]
最適制御問題に対処するための新しい学習フレームワークを提案する。
ポントリャーギンの最大原理を元の最適制御問題に適用することは、学習焦点をハミルトン力学の減少にシフトさせる。
我々は,NeuralPMPと呼ばれる学習フレームワークを様々な制御タスクに適用し,競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-15T22:13:43Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。