論文の概要: Reinforcement Learning in System Identification
- arxiv url: http://arxiv.org/abs/2212.07123v1
- Date: Wed, 14 Dec 2022 09:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:45:50.513127
- Title: Reinforcement Learning in System Identification
- Title(参考訳): システム同定における強化学習
- Authors: Jose Antonio Martin H., Oscar Fernandez Vicente, Sergio Perez, Anas
Belfadil, Cristina Ibanez-Llano, Freddy Jose Perozo Rondon, Jose Javier
Valle, Javier Arechalde Pelaz
- Abstract要約: システム識別は、学習前方モデル、伝達関数、システムダイナミクスなどとも呼ばれるが、科学と工学の両方において長い伝統がある。
ここでは、この問題における強化学習の利用について考察する。
本稿では,この問題が強化学習問題として自然と音にどのように適合するかを詳述し,RLがこのような問題を解決する上で有望な手法であることを実証する実験結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: System identification, also known as learning forward models, transfer
functions, system dynamics, etc., has a long tradition both in science and
engineering in different fields. Particularly, it is a recurring theme in
Reinforcement Learning research, where forward models approximate the state
transition function of a Markov Decision Process by learning a mapping function
from current state and action to the next state. This problem is commonly
defined as a Supervised Learning problem in a direct way. This common approach
faces several difficulties due to the inherent complexities of the dynamics to
learn, for example, delayed effects, high non-linearity, non-stationarity,
partial observability and, more important, error accumulation when using
bootstrapped predictions (predictions based on past predictions), over large
time horizons. Here we explore the use of Reinforcement Learning in this
problem. We elaborate on why and how this problem fits naturally and sound as a
Reinforcement Learning problem, and present some experimental results that
demonstrate RL is a promising technique to solve these kind of problems.
- Abstract(参考訳): システム同定は、学習フォワードモデル、伝達関数、システムダイナミクスなどとしても知られ、科学と工学の両方において様々な分野において長い伝統がある。
特に、強化学習研究における繰り返しのテーマであり、前進モデルは、現在状態と動作から次の状態へのマッピング関数を学習することにより、マルコフ決定プロセスの状態遷移関数を近似する。
この問題は一般に教師付き学習問題として直接的に定義される。
この一般的なアプローチは、遅延効果、高い非線形性、非定常性、部分的可観測性、そしてより重要なことに、ブートストラップされた予測(過去の予測に基づく予測)を使用する場合のエラーの蓄積など、学習するダイナミクスの固有の複雑さによって、いくつかの困難に直面している。
本稿では,この問題における強化学習の利用について考察する。
我々は,この課題が自然にどのように適合するかを,強化学習問題として説明し,rlがこのような問題を解決する有望な手法であることを実証する実験結果を示す。
関連論文リスト
- Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文 参考訳(メタデータ) (2024-02-22T11:06:07Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Bayesian Learning for Dynamic Inference [2.2843885788439793]
いくつかの逐次推定問題では、推定される量の将来値は、その現在の値の推定に依存する。
本研究では,未知量生成モデルがランダムに描画されることを前提として,動的推論のためのベイズ学習問題を定式化する。
我々は、推論損失を最小限に抑えるために、オフラインとオンラインの両方で最適なベイズ学習ルールを導出する。
論文 参考訳(メタデータ) (2022-12-30T19:16:23Z) - Learning Physical Concepts in Cyber-Physical Systems: A Case Study [72.74318982275052]
本稿では,時系列データにおける物理概念の学習方法に関する研究の現状について概説する。
また,3タンクシステムの例を用いて,最先端技術から最も重要な手法を分析した。
論文 参考訳(メタデータ) (2021-11-28T14:24:52Z) - Learning Stable Deep Dynamics Models for Partially Observed or Delayed
Dynamical Systems [38.17499046781131]
安全クリティカルシステムにとって、学習されたモデルはある種の平衡点に収束することが保証されることが不可欠である。
神経リプノフ関数で正規化されたニューラルODEは、状態が完全に観察されたときに有望なアプローチである。
学習モデルの安定性を確保する方法を示し、理論的に我々のアプローチを分析する。
論文 参考訳(メタデータ) (2021-10-27T09:21:59Z) - Supervised DKRC with Images for Offline System Identification [77.34726150561087]
現代の力学系はますます非線形で複雑なものになりつつある。
予測と制御のためのコンパクトで包括的な表現でこれらのシステムをモデル化するフレームワークが必要である。
本手法は,教師付き学習手法を用いてこれらの基礎関数を学習する。
論文 参考訳(メタデータ) (2021-09-06T04:39:06Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Knowledge as Invariance -- History and Perspectives of
Knowledge-augmented Machine Learning [69.99522650448213]
機械学習の研究は転換点にある。
研究の関心は、高度にパラメータ化されたモデルのパフォーマンス向上から、非常に具体的なタスクへとシフトしている。
このホワイトペーパーは、機械学習研究におけるこの新興分野の紹介と議論を提供する。
論文 参考訳(メタデータ) (2020-12-21T15:07:19Z) - Variational Deep Learning for the Identification and Reconstruction of
Chaotic and Stochastic Dynamical Systems from Noisy and Partial Observations [15.82296284460491]
支配方程式の同定は、ノイズや部分的な観測を扱う際には依然として困難である。
提案するフレームワークでは,システムの真の状態を再構築するための推論モデルが学習される。
このフレームワークは、古典的なデータ同化と最先端の機械学習技術をブリッジする。
論文 参考訳(メタデータ) (2020-09-04T16:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。