論文の概要: Learning to control from expert demonstrations
- arxiv url: http://arxiv.org/abs/2203.05012v1
- Date: Wed, 9 Mar 2022 19:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:30:43.237829
- Title: Learning to control from expert demonstrations
- Title(参考訳): 専門家のデモからコントロールを学ぶ
- Authors: Alimzhan Sultangazin, Luigi Pannocchi, Lucas Fraile, and Paulo Tabuada
- Abstract要約: 実証が十分に長く、少なくとも$n+1$が存在することを仮定して、専門家によるデモを安定化コントローラに組み合わせる方法を示す。
n+1$以上のデモがある場合、安定化コントローラを構築するために最適な$n+1$デモを最適に選択する方法について議論する。
- 参考スコア(独自算出の注目度): 4.488583779590992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit the problem of learning a stabilizing controller
from a finite number of demonstrations by an expert. By first focusing on
feedback linearizable systems, we show how to combine expert demonstrations
into a stabilizing controller, provided that demonstrations are sufficiently
long and there are at least $n+1$ of them, where $n$ is the number of states of
the system being controlled. When we have more than $n+1$ demonstrations, we
discuss how to optimally choose the best $n+1$ demonstrations to construct the
stabilizing controller. We then extend these results to a class of systems that
can be embedded into a higher-dimensional system containing a chain of
integrators. The feasibility of the proposed algorithm is demonstrated by
applying it on a CrazyFlie 2.0 quadrotor.
- Abstract(参考訳): 本稿では,専門家による有限個の実演から安定制御器を学習する問題について再検討する。
まず, フィードバック線形化システムに着目し, 実演が十分長く, かつ少なくともn+1 ドル以上あり, 制御対象システムの状態数を$n$ とした場合に, 実演を安定化制御に組み合わせる方法を示す。
n+1$ 以上のデモンストレーションがある場合、安定化コントローラを構築するために最適な $n+1$ デモを最適に選択する方法について議論する。
次に、これらの結果を、積分器の連鎖を含む高次元システムに組み込むことができる一連のシステムに拡張する。
提案手法の有効性は,crazyflie 2.0 quadrotor に適用することにより実証された。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret [1.529943343419486]
本稿では,システムのモデルが未知な場合,分散線形二次制御系を適応的に設計するオンライン学習アルゴリズムを提案する。
我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$sqrtT$までスケールする期待された後悔を楽しんでいます。
論文 参考訳(メタデータ) (2022-10-17T09:29:01Z) - Robustness of Control Design via Bayesian Learning [0.0]
これらの知見に触発されて,制御探索課題におけるベイズ学習の頑健性を示す。
一次元開放ループ不安定系を安定化する線形制御器を求める。
論文 参考訳(メタデータ) (2022-05-13T21:10:19Z) - Learning the Dynamics of Autonomous Linear Systems From Multiple
Trajectories [2.2268031040603447]
自律線形系同定の学習速度と一貫性に関する既存の結果は、1つの長い軌道からの定常状態の挙動の観測に依存している。
定常状態の挙動が容易に観察できない複数の短い軌跡に基づく学習システムダイナミクスのシナリオを考察する。
厳密な安定系の学習速度は$mathcalO(sqrtfraclogNN)$、学習速度は$mathcalO(frac(logN)dsqrとなる。
論文 参考訳(メタデータ) (2022-03-24T01:29:53Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems [34.394552166070746]
本研究では,1つの有限軌跡から得られた標本からシステム力学を学習するための勾配に基づくアルゴリズムについて検討する。
既存の作業とは異なり、我々の限界はノイズに敏感で、精度が高く、サンプルの複雑さも小さい。
論文 参考訳(メタデータ) (2020-02-20T02:36:44Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。