論文の概要: Learning by Doing: Controlling a Dynamical System using Causality,
Control, and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.06052v1
- Date: Sat, 12 Feb 2022 12:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:58:54.283147
- Title: Learning by Doing: Controlling a Dynamical System using Causality,
Control, and Reinforcement Learning
- Title(参考訳): 実行による学習:因果性、制御、強化学習を用いた動的システムの制御
- Authors: Sebastian Weichwald, S{\o}ren Wengel Mogensen, Tabitha Edith Lee,
Dominik Baumann, Oliver Kroemer, Isabelle Guyon, Sebastian Trimpe, Jonas
Peters, Niklas Pfister
- Abstract要約: 因果性、制御、強化学習に関する質問は、予測の古典的な機械学習タスクを超えて行われる。
異なる視点を組み合わせることでシナジーが生まれると我々は信じており、この競争はこのようなシナジーへの第一歩である。
両方のトラックの目標は、システムを望ましい状態に導く制御を推論することである。
- 参考スコア(独自算出の注目度): 27.564435351371653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Questions in causality, control, and reinforcement learning go beyond the
classical machine learning task of prediction under i.i.d. observations.
Instead, these fields consider the problem of learning how to actively perturb
a system to achieve a certain effect on a response variable. Arguably, they
have complementary views on the problem: In control, one usually aims to first
identify the system by excitation strategies to then apply model-based design
techniques to control the system. In (non-model-based) reinforcement learning,
one directly optimizes a reward. In causality, one focus is on identifiability
of causal structure. We believe that combining the different views might create
synergies and this competition is meant as a first step toward such synergies.
The participants had access to observational and (offline) interventional data
generated by dynamical systems. Track CHEM considers an open-loop problem in
which a single impulse at the beginning of the dynamics can be set, while Track
ROBO considers a closed-loop problem in which control variables can be set at
each time step. The goal in both tracks is to infer controls that drive the
system to a desired state. Code is open-sourced (
https://github.com/LearningByDoingCompetition/learningbydoing-comp ) to
reproduce the winning solutions of the competition and to facilitate trying out
new methods on the competition tasks.
- Abstract(参考訳): 因果性、制御、強化学習に関する質問は、古典的な機械学習の予測タスク、すなわち、観測に基づくものである。
代わりに、これらの分野は、応答変数に特定の効果を達成するためにシステムを積極的に摂動させる方法を学ぶ問題を考える。
制御においては、通常、興奮戦略によって最初にシステムを特定し、その後、システムを制御するためにモデルベースの設計技術を適用することを目的としています。
非モデルベースの強化学習では、報酬を直接最適化する。
因果関係において、一つの焦点は因果構造の識別性である。
異なる視点を組み合わせることでシナジーが生まれると我々は信じており、この競争はこのようなシナジーへの第一歩である。
参加者は動的システムによって生成された観察的および(オフライン)介入データにアクセスできた。
トラック・チェムは、ダイナミクスの開始時の一つのインパルスをセットできるオープンループ問題を考える一方、トラック・ロボは、各時間ステップで制御変数を設定できるクローズドループ問題を考える。
両方のトラックの目標は、システムを望ましい状態に導く制御を推論することである。
コードはオープンソース(https://github.com/LearningByDoingCompetition/learningbydoing-comp)で、競争の勝利したソリューションを再現し、競争タスクにおける新しいメソッドの試行を容易にする。
関連論文リスト
- Joint Input and Output Coordination for Class-Incremental Learning [84.36763449830812]
本稿では,これらの問題に対処するためのJIOC機構を提案する。
このメカニズムは、出力スコアの勾配に応じて異なるカテゴリのデータに異なる重みを割り当てる。
メモリストレージを使用するさまざまなインクリメンタルな学習アプローチに組み込むことができる。
論文 参考訳(メタデータ) (2024-09-09T13:55:07Z) - DiffPhyCon: A Generative Approach to Control Complex Physical Systems [16.733151963652244]
本稿では,物理系制御問題に対処する新しい手法である拡散物理系制御(DiffPhyCon)を紹介する。
DiffPhyConは学習した生成エネルギー関数と予め定義された制御目的の両方を同時に最小化する。
提案手法は,古典的アプローチや最先端の深層学習法,強化学習法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T01:56:23Z) - Controlling dynamical systems to complex target states using machine
learning: next-generation vs. classical reservoir computing [68.8204255655161]
機械学習を用いた非線形力学系の制御は、システムを周期性のような単純な振る舞いに駆動するだけでなく、より複雑な任意の力学を駆動する。
まず, 従来の貯水池計算が優れていることを示す。
次のステップでは、これらの結果を異なるトレーニングデータに基づいて比較し、代わりに次世代貯水池コンピューティングを使用する別のセットアップと比較する。
その結果、通常のトレーニングデータに対して同等のパフォーマンスを提供する一方で、次世代RCは、非常に限られたデータしか利用できない状況において、著しくパフォーマンスが向上していることがわかった。
論文 参考訳(メタデータ) (2023-07-14T07:05:17Z) - CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-02T17:59:43Z) - The least-control principle for learning at equilibrium [65.2998274413952]
我々は、平衡反復ニューラルネットワーク、深層平衡モデル、メタラーニングを学ぶための新しい原理を提案する。
私たちの結果は、脳がどのように学習するかを明らかにし、幅広い機械学習問題にアプローチする新しい方法を提供します。
論文 参考訳(メタデータ) (2022-07-04T11:27:08Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Machine Learning in Event-Triggered Control: Recent Advances and Open
Issues [0.7699714865575188]
本稿では、イベントトリガー制御と機械学習の併用に関する文献をレビューする。
機械学習の利用目的に応じて、これらの学習アルゴリズムが異なるアプリケーションにどのように使用できるかについて論じる。
論文 参考訳(メタデータ) (2020-09-27T08:11:34Z) - Active Learning of Causal Structures with Deep Reinforcement Learning [13.202747831999414]
介入データから因果構造を学習するための実験設計の問題について検討する。
実験設計の課題に対して,最初の深層強化学習に基づく解法を提案する。
論文 参考訳(メタデータ) (2020-09-07T10:49:06Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Data-driven Koopman Operators for Model-based Shared Control of
Human-Machine Systems [66.65503164312705]
本稿では,データ駆動型共有制御アルゴリズムを提案する。
ユーザのインタラクションに関するダイナミクスと情報は、Koopman演算子を使用して観察から学習される。
モデルに基づく共有制御は、自然な学習やユーザのみの制御パラダイムと比較して、タスクとコントロールのメトリクスを著しく改善する。
論文 参考訳(メタデータ) (2020-06-12T14:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。