論文の概要: A successive approximation method in functional spaces for hierarchical optimal control problems and its application to learning
- arxiv url: http://arxiv.org/abs/2410.20617v1
- Date: Sun, 27 Oct 2024 22:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:02.680641
- Title: A successive approximation method in functional spaces for hierarchical optimal control problems and its application to learning
- Title(参考訳): 階層的最適制御問題に対する関数空間における逐次近似法とその学習への応用
- Authors: Getachew K. Befekadu,
- Abstract要約: 本研究では,高次元非線形関数をモデル化するための点推定の学習問題について考察する。
デューコースにおける推定パラメータは、異なるモデル検証データセット上で許容できる予測精度を提供する。
最適化段階における一般化と正規化の両方を適切に考慮する枠組みを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We consider a class of learning problem of point estimation for modeling high-dimensional nonlinear functions, whose learning dynamics is guided by model training dataset, while the estimated parameter in due course provides an acceptable prediction accuracy on a different model validation dataset. Here, we establish an evidential connection between such a learning problem and a hierarchical optimal control problem that provides a framework how to account appropriately for both generalization and regularization at the optimization stage. In particular, we consider the following two objectives: (i) The first one is a controllability-type problem, i.e., generalization, which consists of guaranteeing the estimated parameter to reach a certain target set at some fixed final time, where such a target set is associated with model validation dataset. (ii) The second one is a regularization-type problem ensuring the estimated parameter trajectory to satisfy some regularization property over a certain finite time interval. First, we partition the control into two control strategies that are compatible with two abstract agents, namely, a leader, which is responsible for the controllability-type problem and that of a follower, which is associated with the regularization-type problem. Using the notion of Stackelberg's optimization, we provide conditions on the existence of admissible optimal controls for such a hierarchical optimal control problem under which the follower is required to respond optimally to the strategy of the leader, so as to achieve the overall objectives that ultimately leading to an optimal parameter estimate. Moreover, we provide a nested algorithm, arranged in a hierarchical structure-based on successive approximation methods, for solving the corresponding optimal control problem. Finally, we present some numerical results for a typical nonlinear regression problem.
- Abstract(参考訳): 本稿では,高次元非線形関数をモデル化するための点推定の学習問題について考察する。学習力学はモデルトレーニングデータセットで導かれるが,推定パラメータは異なるモデル検証データセット上で許容できる精度を提供する。
そこで我々は,このような学習問題と階層的最適制御問題との間に明確な関係を築き,最適化段階における一般化と正規化の両方を適切に考慮する枠組みを提供する。
特に,以下の2つの目的について考察する。
i) 第一の問題は可制御性型問題、すなわち一般化であり、モデル検証データセットにそのようなターゲットセットが関連付けられている一定の最終時間に特定のターゲットセットに到達するための推定パラメータを保証する。
(ii) 第二の問題は、推定パラメータ軌道が一定の有限時間間隔で正規化特性を満たすことを保証する正規化型問題である。
まず、制御を2つの抽象エージェント、すなわち、制御可能性型問題に責任を持つリーダーと、正規化型問題に関連付けられた追従者の2つの制御戦略に分割する。
Stackelbergの最適化の概念を用いて、従者がリーダーの戦略に最適に応答する必要があるような階層的最適制御問題に対する許容可能な最適制御の存在条件を提供し、最終的に最適なパラメータ推定につながる全体的な目的を達成する。
さらに、逐次近似法に基づいて階層構造に配置されたネスト付きアルゴリズムを用いて、対応する最適制御問題の解法を提案する。
最後に、典型的な非線形回帰問題に対する数値的な結果を示す。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Probabilistic Control and Majorization of Optimal Control [3.2634122554914002]
確率論的制御設計は、有理エージェントが任意の所望の閉ループ系軌道密度をモデル化しようとする原理に基づいている。
本研究では、所望の閉ループ挙動の代替パラメトリゼーションを導入し、密度間の代替近接測度を探索する。
論文 参考訳(メタデータ) (2022-05-06T15:04:12Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control [0.0]
値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。
これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
論文 参考訳(メタデータ) (2021-08-20T19:17:35Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Robust-Adaptive Control of Linear Systems: beyond Quadratic Costs [14.309243378538012]
線形システムのロバストかつ適応的なモデル予測制御(MPC)の問題を考える。
この設定に対して、最初のエンドツーエンドのサブ最適トラクティリティ解析を提供する。
論文 参考訳(メタデータ) (2020-02-25T12:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。