論文の概要: On the Convergence of Jacobian-Free Backpropagation for Optimal Control Problems with Implicit Hamiltonians
- arxiv url: http://arxiv.org/abs/2602.00921v1
- Date: Sat, 31 Jan 2026 22:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.467417
- Title: On the Convergence of Jacobian-Free Backpropagation for Optimal Control Problems with Implicit Hamiltonians
- Title(参考訳): インシシトハミルトニアンによる最適制御問題に対するヤコビアンフリーバックプロパゲーションの収束性について
- Authors: Eric Gelphman, Deepanshu Verma, Nicole Tianjiao Yang, Stanley Osher, Samy Wu Fung,
- Abstract要約: 暗黙的なハミルトニアンによる最適フィードバック制御は、学習に基づく値関数法に根本的な課題をもたらす。
最近のWorkcitegelphman2025endでは、Jacobian-Free Backpropagation (JFB)を使って暗黙のディープラーニングアプローチを導入している。
我々は、JFBの収束保証をミニバッチ設定で確立し、その結果の更新が期待される最適制御目標の定常点に収束することを示す。
- 参考スコア(独自算出の注目度): 0.8244545230770907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimal feedback control with implicit Hamiltonians poses a fundamental challenge for learning-based value function methods due to the absence of closed-form optimal control laws. Recent work~\cite{gelphman2025end} introduced an implicit deep learning approach using Jacobian-Free Backpropagation (JFB) to address this setting, but only established sample-wise descent guarantees. In this paper, we establish convergence guarantees for JFB in the stochastic minibatch setting, showing that the resulting updates converge to stationary points of the expected optimal control objective. We further demonstrate scalability on substantially higher-dimensional problems, including multi-agent optimal consumption and swarm-based quadrotor and bicycle control. Together, our results provide both theoretical justification and empirical evidence for using JFB in high-dimensional optimal control with implicit Hamiltonians.
- Abstract(参考訳): 暗黙的なハミルトニアンによる最適フィードバック制御は、閉形式最適制御法が存在しないため、学習に基づく値関数法に根本的な課題をもたらす。
最近の研究から,Jacobian-Free Backpropagation (JFB) を用いた暗黙的な深層学習手法が導入された。
本稿では,確率的ミニバッチ設定におけるJFBの収束保証を確立し,得られた更新が期待される最適制御目標の定常点に収束することを示す。
さらに,マルチエージェントの最適消費やSwarmベースの四輪車,自転車制御など,かなり高次元的な問題に対するスケーラビリティを実証する。
この結果から,JFBを暗黙ハミルトニアンを用いた高次元最適制御に用いた理論的正当性および実証的証拠が得られた。
関連論文リスト
- On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - End-to-End Training of High-Dimensional Optimal Control with Implicit Hamiltonians via Jacobian-Free Backpropagation [0.8244545230770907]
本稿では,値関数を直接パラメータ化して最適制御法を学習する,エンドツーエンドの暗黙的深層学習手法を提案する。
提案手法は暗黙ハミルトニアンを含む複数のシナリオにまたがる高次元フィードバックコントローラを効果的に学習することを示す。
論文 参考訳(メタデータ) (2025-10-01T00:03:08Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - You KAN Do It in a Single Shot: Plug-and-Play Methods with Single-Instance Priors [10.726369475010818]
我々はKologorov-Networks(KAN)をデノイザとして組み込んだ最適化フレームワークであるKankan-Playを紹介する。
Kan-Playは、単一ノイズしか観測できないシングルインスタンス逆の問題を解決するように設計されている。
論文 参考訳(メタデータ) (2024-12-09T04:55:18Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Optimal control for state preparation in two-qubit open quantum systems
driven by coherent and incoherent controls via GRAPE approach [77.34726150561087]
我々は、コヒーレントかつ非コヒーレントな時間依存制御によって駆動される2つの量子ビットのモデルを考える。
系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって支配される。
最適化制御の下で, フォン・ノイマンエントロピー, 純度, および1ビット還元密度行列の進化について検討した。
論文 参考訳(メタデータ) (2022-11-04T15:20:18Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。