論文の概要: Active Learning for Control-Oriented Identification of Nonlinear Systems
- arxiv url: http://arxiv.org/abs/2404.09030v2
- Date: Tue, 13 Aug 2024 16:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 22:35:04.009013
- Title: Active Learning for Control-Oriented Identification of Nonlinear Systems
- Title(参考訳): 非線形系の制御指向同定のための能動学習
- Authors: Bruce D. Lee, Ingvar Ziemann, George J. Pappas, Nikolai Matni,
- Abstract要約: 本稿では,非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析について述べる。
ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。
我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 26.231260751633307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning is an effective approach for controlling an unknown system. It is based on a longstanding pipeline familiar to the control community in which one performs experiments on the environment to collect a dataset, uses the resulting dataset to identify a model of the system, and finally performs control synthesis using the identified model. As interacting with the system may be costly and time consuming, targeted exploration is crucial for developing an effective control-oriented model with minimal experimentation. Motivated by this challenge, recent work has begun to study finite sample data requirements and sample efficient algorithms for the problem of optimal exploration in model-based reinforcement learning. However, existing theory and algorithms are limited to model classes which are linear in the parameters. Our work instead focuses on models with nonlinear parameter dependencies, and presents the first finite sample analysis of an active learning algorithm suitable for a general class of nonlinear dynamics. In certain settings, the excess control cost of our algorithm achieves the optimal rate, up to logarithmic factors. We validate our approach in simulation, showcasing the advantage of active, control-oriented exploration for controlling nonlinear systems.
- Abstract(参考訳): モデルに基づく強化学習は未知のシステムを制御する効果的な手法である。
コントロールコミュニティに慣れ親しんだ長年のパイプラインに基づいており、そこでは、データセットを収集するために環境上で実験を行い、結果のデータセットを使用してシステムのモデルを特定し、最終的に識別されたモデルを使用して制御合成を行う。
システムとのインタラクションはコストと時間を要するため、最小限の実験で効果的な制御指向モデルを開発するためには、ターゲット探索が不可欠である。
この課題に触発された最近の研究は、モデルに基づく強化学習における最適探索問題に対する有限サンプルデータ要求とサンプル効率アルゴリズムの研究を始めている。
しかし、既存の理論とアルゴリズムはパラメータに線形なモデルクラスに限られている。
本研究は, 非線形パラメータ依存モデルに焦点をあて, 非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析を行う。
ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。
我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
関連論文リスト
- Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Physics-Informed Kernel Embeddings: Integrating Prior System Knowledge
with Data-Driven Control [22.549914935697366]
カーネル埋め込みを用いたデータ駆動制御アルゴリズムに事前知識を組み込む手法を提案する。
提案手法は,カーネル学習問題におけるバイアス項として,システムダイナミクスの事前知識を取り入れたものである。
純粋にデータ駆動ベースライン上でのサンプル効率の向上と,我々のアプローチのアウト・オブ・サンプル一般化を実証する。
論文 参考訳(メタデータ) (2023-01-09T18:35:32Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Neural-iLQR: A Learning-Aided Shooting Method for Trajectory
Optimization [17.25824905485415]
制約のない制御空間上の学習支援シューティング手法であるNeural-iLQRを提案する。
システムモデルにおける不正確さの存在下で、従来のiLQRよりも著しく優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-21T07:17:28Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。