論文の概要: Is Bellman Equation Enough for Learning Control?
- arxiv url: http://arxiv.org/abs/2503.02171v2
- Date: Thu, 06 Mar 2025 03:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:18.851990
- Title: Is Bellman Equation Enough for Learning Control?
- Title(参考訳): ベルマン方程式は学習制御に十分か?
- Authors: Haoxiang You, Lekan Molu, Ian Abraham,
- Abstract要約: ベルマン方程式のユニークな解は連続状態空間において成り立たないことを示す。
次に, 既約解と既約解の指数的不均衡に起因する不安定解への収束という, 値に基づく手法で共通の障害モードを示す。
最後に,この問題に対処するための構築による安定解の収束を保証する肯定的なニューラルアーキテクチャを導入する。
- 参考スコア(独自算出の注目度): 3.70729078195191
- License:
- Abstract: The Bellman equation and its continuous-time counterpart, the Hamilton-Jacobi-Bellman (HJB) equation, serve as necessary conditions for optimality in reinforcement learning and optimal control. While the value function is known to be the unique solution to the Bellman equation in tabular settings, we demonstrate that this uniqueness fails to hold in continuous state spaces. Specifically, for linear dynamical systems, we prove the Bellman equation admits at least $\binom{2n}{n}$ solutions, where $n$ is the state dimension. Crucially, only one of these solutions yields both an optimal policy and a stable closed-loop system. We then demonstrate a common failure mode in value-based methods: convergence to unstable solutions due to the exponential imbalance between admissible and inadmissible solutions. Finally, we introduce a positive-definite neural architecture that guarantees convergence to the stable solution by construction to address this issue.
- Abstract(参考訳): ベルマン方程式とその連続時間方程式であるハミルトン・ヤコビ・ベルマン方程式(HJB)は、強化学習と最適制御において最適な条件となる。
値関数は、表の設定においてベルマン方程式のユニークな解であることが知られているが、この特異性は連続状態空間において保たないことを示す。
具体的には、線形力学系に対して、ベルマン方程式は少なくとも$\binom{2n}{n}$解を認め、$n$は状態次元である。
重要なことに、これらの解のうちの1つだけが最適ポリシーと安定閉ループシステムの両方をもたらす。
次に, 既約解と既約解の指数的不均衡に起因する不安定解への収束という, 値に基づく手法で共通の障害モードを示す。
最後に,この問題に対処するための構築による安定解の収束を保証する肯定的なニューラルアーキテクチャを導入する。
関連論文リスト
- Exponential Improvement on Asian Option Pricing Through Quantum Preconditioning Methods [0.0]
アジアオプションの価格設定に使用される微分方程式を解くために設計された量子アルゴリズムを提案する。
提案手法は,アジアのオプション価格の問題に対して,既存の量子プレコンディショニング手法を改良したものである。
論文 参考訳(メタデータ) (2025-01-26T17:44:30Z) - Double Momentum Method for Lower-Level Constrained Bilevel Optimization [31.28781889710351]
再帰的仮定を使わずに,非滑らかな暗黙関数定理を応用したLCBOの新しい過次関数を提案する。
さらに,2重モーメント法と適応ステップサイズ法に基づいて,テキスト入力ループのシングルタイムスケール反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-25T09:05:22Z) - On the Uniqueness of Solution for the Bellman Equation of LTL Objectives [12.918524838804016]
2つの割引係数を持つベルマン方程式の解の特異性は明らかに議論されていない。
次に、ベルマン方程式が一意解として期待される戻り値を持つ条件を提案する。
論文 参考訳(メタデータ) (2024-04-07T21:06:52Z) - Canonically consistent quantum master equation [68.8204255655161]
我々は、無限小弱い系-バス結合限界を超えた開量子系の状態を正しく再現する新しい量子マスター方程式を提唱した。
本手法は, 定常状態の減少に関する知識を力学に取り入れることに基づいている。
論文 参考訳(メタデータ) (2022-05-25T15:22:52Z) - The Franke-Gorini-Kossakowski-Lindblad-Sudarshan (FGKLS) Equation for
Two-Dimensional Systems [62.997667081978825]
開量子系は、FGKLS(Franke-Gorini-Kossakowski-Lindblad-Sudarshan)方程式に従うことができる。
我々はヒルベルト空間次元が 2$ である場合を徹底的に研究する。
論文 参考訳(メタデータ) (2022-04-16T07:03:54Z) - Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement
for Value Error [83.10489974736404]
本研究では,ベルマン方程式を値予測精度の代用目的として用いることを検討した。
ベルマン誤差は値関数の精度の指標として不十分であることがわかった。
論文 参考訳(メタデータ) (2022-01-28T21:03:59Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z) - Hardness of Random Optimization Problems for Boolean Circuits,
Low-Degree Polynomials, and Langevin Dynamics [78.46689176407936]
アルゴリズムの族は高い確率でほぼ最適な解を生成できないことを示す。
ブール回路の場合、回路複雑性理論で知られている最先端境界を改善する。
論文 参考訳(メタデータ) (2020-04-25T05:45:59Z) - Universal Lindblad equation for open quantum systems [0.0]
我々は、量子多体系を研究するためのリンドブラッド形式でマルコフのマスター方程式を開発する。
マスター方程式の妥当性は、入浴とシステムバスカップリングの性質に完全に依存している。
本手法が静的あるいは駆動型量子多体系にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2020-04-03T11:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。