論文の概要: Logarithmic Regret for Nonlinear Control
- arxiv url: http://arxiv.org/abs/2501.10261v1
- Date: Fri, 17 Jan 2025 15:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:13.569928
- Title: Logarithmic Regret for Nonlinear Control
- Title(参考訳): 非線形制御のための対数レグレット
- Authors: James Wang, Bruce D. Lee, Ingvar Ziemann, Nikolai Matni,
- Abstract要約: 逐次的相互作用を通じて未知の非線形力学系を制御する学習の課題に対処する。
ミスが破滅的に起こりうる高スループットアプリケーションに動機付けられ,高速な逐次学習が可能となる状況について検討する。
- 参考スコア(独自算出の注目度): 5.473636587010879
- License:
- Abstract: We address the problem of learning to control an unknown nonlinear dynamical system through sequential interactions. Motivated by high-stakes applications in which mistakes can be catastrophic, such as robotics and healthcare, we study situations where it is possible for fast sequential learning to occur. Fast sequential learning is characterized by the ability of the learning agent to incur logarithmic regret relative to a fully-informed baseline. We demonstrate that fast sequential learning is achievable in a diverse class of continuous control problems where the system dynamics depend smoothly on unknown parameters, provided the optimal control policy is persistently exciting. Additionally, we derive a regret bound which grows with the square root of the number of interactions for cases where the optimal policy is not persistently exciting. Our results provide the first regret bounds for controlling nonlinear dynamical systems depending nonlinearly on unknown parameters. We validate the trends our theory predicts in simulation on a simple dynamical system.
- Abstract(参考訳): 逐次的相互作用を通じて未知の非線形力学系を制御する学習の課題に対処する。
ロボット工学や医療など,失敗が破滅的になるような高度なアプリケーションによって動機付けられ,高速な逐次学習が実現可能な状況について検討する。
高速シーケンシャル学習は、学習エージェントが、完全インフォームドベースラインに対して対数後悔を引き起こす能力によって特徴付けられる。
最適制御ポリシが持続的にエキサイティングであれば,システムダイナミクスが未知のパラメータにスムーズに依存する,多種多様な連続的な制御問題において,高速逐次学習が達成可能であることを実証する。
さらに、最適ポリシーが持続的にエキサイティングでない場合に、相互作用数の平方根で成長する後悔境界を導出する。
この結果から,非線形パラメータに依存しない非線形力学系を制御するための最初の後悔境界が得られた。
我々は, 単純な力学系上でのシミュレーションにおいて, 理論が予測する傾向を検証する。
関連論文リスト
- Prediction of Unobserved Bifurcation by Unsupervised Extraction of Slowly Time-Varying System Parameter Dynamics from Time Series Using Reservoir Computing [0.0]
従来の機械学習手法は、観測された時系列データからシステムを学習し、予測する能力を進歩させてきた。
本稿では,長時間の内的力学を持つ低速貯水池と,短時間の時間的力学を持つ高速貯水池からなるモデルアーキテクチャを提案する。
遅い貯留層は系のパラメータの時間的変動を抽出し、高速力学における未知の分岐を予測するのに使用される。
我々のアプローチは、神経科学、物質科学、気象予報などの分野への応用の可能性を示している。
論文 参考訳(メタデータ) (2024-06-20T04:49:41Z) - Controlling dynamical systems to complex target states using machine
learning: next-generation vs. classical reservoir computing [68.8204255655161]
機械学習を用いた非線形力学系の制御は、システムを周期性のような単純な振る舞いに駆動するだけでなく、より複雑な任意の力学を駆動する。
まず, 従来の貯水池計算が優れていることを示す。
次のステップでは、これらの結果を異なるトレーニングデータに基づいて比較し、代わりに次世代貯水池コンピューティングを使用する別のセットアップと比較する。
その結果、通常のトレーニングデータに対して同等のパフォーマンスを提供する一方で、次世代RCは、非常に限られたデータしか利用できない状況において、著しくパフォーマンスが向上していることがわかった。
論文 参考訳(メタデータ) (2023-07-14T07:05:17Z) - The least-control principle for learning at equilibrium [65.2998274413952]
我々は、平衡反復ニューラルネットワーク、深層平衡モデル、メタラーニングを学ぶための新しい原理を提案する。
私たちの結果は、脳がどのように学習するかを明らかにし、幅広い機械学習問題にアプローチする新しい方法を提供します。
論文 参考訳(メタデータ) (2022-07-04T11:27:08Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - Controlling nonlinear dynamical systems into arbitrary states using
machine learning [77.34726150561087]
機械学習(ML)を活用した,新しい完全データ駆動制御方式を提案する。
最近開発されたMLに基づく複雑なシステムの予測機能により、非線形系は任意の初期状態から来る任意の動的対象状態に留まることが証明された。
必要なデータ量が少なく,柔軟性の高いコントロールスキームを備えることで,工学から医学まで幅広い応用の可能性について簡単に議論する。
論文 参考訳(メタデータ) (2021-02-23T16:58:26Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Information Theoretic Regret Bounds for Online Nonlinear Control [35.534829914047336]
未知の非線形力学系における逐次制御の問題について検討する。
この枠組みは、離散的かつ連続的な制御入力と非滑らかで微分不可能な力学を許容する一般的な設定を与える。
実験により, 非線形制御タスクへの応用を実証し, モデル力学の学習における探索の利点を実証する。
論文 参考訳(メタデータ) (2020-06-22T17:46:48Z) - Active Learning for Nonlinear System Identification with Guarantees [102.43355665393067]
状態遷移が既知の状態-作用対の特徴埋め込みに線形に依存する非線形力学系のクラスについて検討する。
そこで本稿では, トラジェクティブ・プランニング, トラジェクティブ・トラッキング, システムの再推定という3つのステップを繰り返すことで, この問題を解決するためのアクティブ・ラーニング・アプローチを提案する。
本手法は, 非線形力学系を標準線形回帰の統計速度と同様, パラメトリック速度で推定する。
論文 参考訳(メタデータ) (2020-06-18T04:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。