論文の概要: Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL
- arxiv url: http://arxiv.org/abs/2012.09737v1
- Date: Thu, 17 Dec 2020 16:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 14:30:30.566395
- Title: Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL
- Title(参考訳): FERMI FELを用いた粒子加速器制御のためのモデルフリー・ベイズ組立モデルに基づく深部強化学習
- Authors: Simon Hirlaender, Niky Bruchon
- Abstract要約: 本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning holds tremendous promise in accelerator controls. The
primary goal of this paper is to show how this approach can be utilised on an
operational level on accelerator physics problems. Despite the success of
model-free reinforcement learning in several domains, sample-efficiency still
is a bottle-neck, which might be encompassed by model-based methods. We compare
well-suited purely model-based to model-free reinforcement learning applied to
the intensity optimisation on the FERMI FEL system. We find that the
model-based approach demonstrates higher representational power and
sample-efficiency, while the asymptotic performance of the model-free method is
slightly superior. The model-based algorithm is implemented in a DYNA-style
using an uncertainty aware model, and the model-free algorithm is based on
tailored deep Q-learning. In both cases, the algorithms were implemented in a
way, which presents increased noise robustness as omnipresent in accelerator
control problems. Code is released in
https://github.com/MathPhysSim/FERMI_RL_Paper.
- Abstract(参考訳): 強化学習は加速器制御において大きな可能性を秘めている。
本研究の主な目的は, 加速器物理問題に対する運用レベルで, このアプローチをどのように活用できるかを示すことである。
モデルなし強化学習がいくつかの領域で成功したにもかかわらず、サンプル効率は依然としてボトルネックであり、モデルベース手法によって包含される可能性がある。
ferMI FELシステムの強度最適化に応用したモデルベースとモデルフリー強化学習を比較した。
モデルベースアプローチは,高い表現力とサンプル効率を示すが,モデルフリー手法の漸近的な性能は若干優れている。
モデルベースアルゴリズムは不確実性認識モデルを用いてDYNA形式で実装され、モデルフリーアルゴリズムはカスタマイズされた深層Q-ラーニングに基づいている。
いずれの場合もアルゴリズムが実装され、加速器制御問題におけるノイズロバスト性が増大する。
コードはhttps://github.com/MathPhysSim/FERMI_RL_Paperで公開されている。
関連論文リスト
- Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and
Agile Robotic Platforms [63.33467732915007]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを統合するためのフレームワークであるNeural-MPCを提案する。
シミュレーションと,高度にアジャイルな四角形プラットフォーム上での実世界で実施した我々の実験は,最大83%の位置追跡誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Structured Hammerstein-Wiener Model Learning for Model Predictive
Control [0.2752817022620644]
本稿では,機械学習によって構築されたモデルを用いて最適制御の信頼性を向上させることを目的とする。
本稿では,Hammerstein-Wienerモデルと凸ニューラルネットワークを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2021-07-09T06:41:34Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。