論文の概要: Online greedy identification of linear dynamical systems
- arxiv url: http://arxiv.org/abs/2204.06375v1
- Date: Wed, 13 Apr 2022 13:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:43:46.235827
- Title: Online greedy identification of linear dynamical systems
- Title(参考訳): 線形力学系のオンライングリーディ同定
- Authors: Matthieu Blanke and Marc Lelarge
- Abstract要約: この研究は未知の環境での探索の問題に対処する。
線形力学系では、実験的な設計フレームワークを使用し、制御が次のステップの情報量を最大化するオンライングリージーポリシーを導入する。
実験的な実験が限られている環境では,本アルゴリズムは複雑度が低く,より精巧な勾配法と比較して実験的に競合する性能を示す。
- 参考スコア(独自算出の注目度): 6.612035830987298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of exploration in an unknown environment. For
linear dynamical systems, we use an experimental design framework and introduce
an online greedy policy where the control maximizes the information of the next
step. In a setting with a limited number of experimental trials, our algorithm
has low complexity and shows experimentally competitive performances compared
to more elaborate gradient-based methods.
- Abstract(参考訳): この研究は未知の環境での探索の問題に対処する。
線形力学系では、実験的な設計フレームワークを使用し、制御が次のステップの情報量を最大化するオンライングリージーポリシーを導入する。
実験的な実験が限られている環境では,アルゴリズムの複雑さは低く,より精巧な勾配に基づく手法と比較して,実験的に競合性能を示す。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Hierarchical deep learning-based adaptive time-stepping scheme for
multiscale simulations [0.0]
本研究では,ディープニューラルネットワークを用いたマルチスケール問題のシミュレーション手法を提案する。
ニューラルネットワークのタイムステッパーの階層的学習を活用することで、タイムスケールにわたる動的システムフローマップの近似に時間ステップを適用する。
このアプローチは、固定ステップニューラルネットワークソルバと比較して計算時間が少なくて最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-10T09:47:58Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Supervised DKRC with Images for Offline System Identification [77.34726150561087]
現代の力学系はますます非線形で複雑なものになりつつある。
予測と制御のためのコンパクトで包括的な表現でこれらのシステムをモデル化するフレームワークが必要である。
本手法は,教師付き学習手法を用いてこれらの基礎関数を学習する。
論文 参考訳(メタデータ) (2021-09-06T04:39:06Z) - Learning to Reach, Swim, Walk and Fly in One Trial: Data-Driven Control
with Scarce Data and Side Information [24.330188770135273]
我々は、非常に厳しいデータ制限の下で未知の力学系に対する学習に基づく制御アルゴリズムを開発した。
データ不足にもかかわらず、このアルゴリズムは何百万もの環境相互作用で訓練された強化学習アルゴリズムに匹敵する性能を提供できることを示す。
高忠実なF-16航空機シミュレータと、リーチャー、スイマー、チーターのようなMuJoCoの環境の実験では、アルゴリズムの有効性が示されている。
論文 参考訳(メタデータ) (2021-06-19T17:10:27Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。