論文の概要: Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam
Intensity Control in Mu2e
- arxiv url: http://arxiv.org/abs/2312.17372v1
- Date: Thu, 28 Dec 2023 21:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 14:29:00.752387
- Title: Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam
Intensity Control in Mu2e
- Title(参考訳): PIDコントローラを超えたPPO: Mu2e における陽子ビーム強度制御のためのニューラルネットワーク PID ポリシ
- Authors: Chenwei Xu, Jerry Yao-Chieh Hu, Aakaash Narayanan, Mattson Thieme,
Vladimir Nagaslaev, Mark Austin, Jeremy Arnold, Jose Berlioz, Pierrick
Hanlet, Aisha Ibrahim, Dennis Nicklaus, Jovan Mitrevski, Jason Michael
St.John, Gauri Pradhan, Andrea Saewert, Kiyomi Seiya, Brian Schupbach, Randy
Thurman-Keup, Nhan Tran, Rui Shi, Seda Ogrenci, Alexis Maya-Isabelle Shuping,
Kyle Hazelwood and Han Liu
- Abstract要約: 我々は,Fermi National Accelerator Laboratory (Fermilab) におけるMuon to Electron Conversion Experiment (Mu2e) における均一な陽子ビーム強度の伝達を維持することを目的とした,新しいPPOアルゴリズムを提案する。
我々の主な目的は、一貫した強度プロファイルを確保するために、一貫した強度プロファイルを確保するために、スピル制御システム(SRS)パラメータのリアルタイムフィードバックとキャリブレーションをミリ秒のタイムスケールで実現する自動制御器を作成することにある。
- 参考スコア(独自算出の注目度): 3.860979702631594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel Proximal Policy Optimization (PPO) algorithm aimed at
addressing the challenge of maintaining a uniform proton beam intensity
delivery in the Muon to Electron Conversion Experiment (Mu2e) at Fermi National
Accelerator Laboratory (Fermilab). Our primary objective is to regulate the
spill process to ensure a consistent intensity profile, with the ultimate goal
of creating an automated controller capable of providing real-time feedback and
calibration of the Spill Regulation System (SRS) parameters on a millisecond
timescale. We treat the Mu2e accelerator system as a Markov Decision Process
suitable for Reinforcement Learning (RL), utilizing PPO to reduce bias and
enhance training stability. A key innovation in our approach is the integration
of a neuralized Proportional-Integral-Derivative (PID) controller into the
policy function, resulting in a significant improvement in the Spill Duty
Factor (SDF) by 13.6%, surpassing the performance of the current PID controller
baseline by an additional 1.6%. This paper presents the preliminary offline
results based on a differentiable simulator of the Mu2e accelerator. It paves
the groundwork for real-time implementations and applications, representing a
crucial step towards automated proton beam intensity control for the Mu2e
experiment.
- Abstract(参考訳): 本稿では,Fermi National Accelerator Laboratory (Fermilab) の Muon to Electron Conversion Experiment (Mu2e) において,均一な陽子ビーム強度の供給を維持するための新しいPPOアルゴリズムを提案する。
我々の主な目的は、一貫した強度プロファイルを確保するために流出過程を規制することであり、最終目標は、ミリ秒のタイムスケールでスパイル制御系(SRS)パラメータのリアルタイムフィードバックとキャリブレーションを提供する自動制御装置を作ることである。
我々は,Mu2eアクセラレータシステムを強化学習(RL)に適したマルコフ決定プロセスとして扱い,PPOを利用してバイアスを低減し,トレーニング安定性を向上させる。
我々のアプローチにおける重要な革新は、ニューラルネットワークされたPIDコントローラをポリシー機能に統合することであり、その結果、現在のPIDコントローラベースラインのパフォーマンスを1.6%上回る13.6%のスパイルデューティファクタ(SDF)が大幅に向上した。
本稿では, Mu2e 加速器の微分可能シミュレータに基づいて, 予備的なオフライン結果を示す。
これは、Mu2e実験における自動陽子ビーム強度制御への重要なステップであるリアルタイム実装と応用の基盤となる。
関連論文リスト
- One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning [0.3562485774739681]
核マイクロリアクターにおける知的制御のための強化学習(RL)アルゴリズムを導入する。
近位政策最適化(PPO)とアクター・クリティカル(A2C)を用いたRLエージェントの訓練
その結果, 最適ドラム位置同定におけるPPOの優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-22T20:14:56Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Real-Time Adaptive Safety-Critical Control with Gaussian Processes in
High-Order Uncertain Models [14.790031018404942]
本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。
まず,差分スパースGPアルゴリズムを改良するために,まず忘れ係数を積分する。
第2フェーズでは,高次制御バリア関数に基づく安全フィルタを提案する。
論文 参考訳(メタデータ) (2024-02-29T08:25:32Z) - Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure
for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。
モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。
本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文 参考訳(メタデータ) (2023-07-03T19:35:52Z) - TempoRL: laser pulse temporal shape optimization with Deep Reinforcement
Learning [0.577478614918139]
高出力レーザー(HPL)の最適性能は、光-物質相互作用に関連する様々な実験タスクの成功に不可欠である。
伝統的に、HPLパラメータはブラックボックスの数値法に依存する自動化方式で最適化される。
モデルフリーのDeep Reinforcement Learning (DRL)は、HPLパフォーマンスを最適化するための有望な代替フレームワークを提供する。
論文 参考訳(メタデータ) (2023-04-20T22:15:27Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。