論文の概要: Learning to steer with Brownian noise
- arxiv url: http://arxiv.org/abs/2410.03221v1
- Date: Fri, 4 Oct 2024 08:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 02:54:39.815120
- Title: Learning to steer with Brownian noise
- Title(参考訳): ブラウン雑音を聴くことを学ぶ
- Authors: Stefan Ankirchner, Sören Christensen, Jan Kallsen, Philip Le Borne, Stefan Perko,
- Abstract要約: 本稿では,境界速度追従問題のエルゴード版について考察し,意思決定者が基礎となるシステムパラメータの知識を欠いており,同時に制御しながら学習しなければならないことを仮定する。
本研究では,移動平均に基づくアルゴリズムを提案し,統計的手法と制御理論を統合するための枠組みを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers an ergodic version of the bounded velocity follower problem, assuming that the decision maker lacks knowledge of the underlying system parameters and must learn them while simultaneously controlling. We propose algorithms based on moving empirical averages and develop a framework for integrating statistical methods with stochastic control theory. Our primary result is a logarithmic expected regret rate. To achieve this, we conduct a rigorous analysis of the ergodic convergence rates of the underlying processes and the risks of the considered estimators.
- Abstract(参考訳): 本稿では,境界速度追従問題のエルゴード版について考察し,意思決定者が基礎となるシステムパラメータの知識を欠いており,同時に制御しながら学習しなければならないことを仮定する。
本研究では,移動経験平均に基づくアルゴリズムを提案し,統計的手法と確率的制御理論を統合するための枠組みを開発する。
私たちの一番の成果は対数的期待の後悔率です。
これを実現するために,本研究では,根底にあるプロセスのエルゴード収束率と考慮された推定者のリスクを厳密に分析する。
関連論文リスト
- Learning Unstable Continuous-Time Stochastic Linear Control Systems [0.0]
有限長状態軌跡に基づく連続時間力学におけるシステム同定の問題について検討する。
適切なランダム化制御入力を用いて不安定なオープンループ行列を推定する手法を提案する。
我々は,推定誤差が軌道長,励起率,信号対雑音比で減衰することを示す理論的性能保証を確立する。
論文 参考訳(メタデータ) (2024-09-17T16:24:51Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Online Multi-Agent Decentralized Byzantine-robust Gradient Estimation [62.997667081978825]
本アルゴリズムは,同時摂動,セキュアな状態推定,2時間スケール近似に基づく。
また,数値実験によるアルゴリズムの性能も示す。
論文 参考訳(メタデータ) (2022-09-30T07:29:49Z) - Guaranteed Trajectory Tracking under Learned Dynamics with Contraction Metrics and Disturbance Estimation [5.147919654191323]
本稿では,制約指標と外乱推定に基づく軌道中心学習制御へのアプローチを提案する。
提案するフレームワークは、平面四重項の例で検証される。
論文 参考訳(メタデータ) (2021-12-15T15:57:33Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Average-case Acceleration Through Spectral Density Estimation [35.01931431231649]
ランダム2次問題の平均ケース解析のためのフレームワークを開発する。
この分析で最適なアルゴリズムを導出する。
我々は, 均一性, マルテンコ・パストゥル, 指数分布の明示的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-12T01:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。