Fugu-MT 論文翻訳(概要): Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam Intensity Control in Mu2e

論文の概要: Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam Intensity Control in Mu2e

arxiv url: http://arxiv.org/abs/2312.17372v1
Date: Thu, 28 Dec 2023 21:35:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 14:29:00.752387
Title: Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam Intensity Control in Mu2e
Title（参考訳）: PIDコントローラを超えたPPO: Mu2e における陽子ビーム強度制御のためのニューラルネットワーク PID ポリシ
Authors: Chenwei Xu, Jerry Yao-Chieh Hu, Aakaash Narayanan, Mattson Thieme, Vladimir Nagaslaev, Mark Austin, Jeremy Arnold, Jose Berlioz, Pierrick Hanlet, Aisha Ibrahim, Dennis Nicklaus, Jovan Mitrevski, Jason Michael St.John, Gauri Pradhan, Andrea Saewert, Kiyomi Seiya, Brian Schupbach, Randy Thurman-Keup, Nhan Tran, Rui Shi, Seda Ogrenci, Alexis Maya-Isabelle Shuping, Kyle Hazelwood and Han Liu
Abstract要約: 我々は,Fermi National Accelerator Laboratory (Fermilab) におけるMuon to Electron Conversion Experiment (Mu2e) における均一な陽子ビーム強度の伝達を維持することを目的とした,新しいPPOアルゴリズムを提案する。我々の主な目的は、一貫した強度プロファイルを確保するために、一貫した強度プロファイルを確保するために、スピル制御システム(SRS)パラメータのリアルタイムフィードバックとキャリブレーションをミリ秒のタイムスケールで実現する自動制御器を作成することにある。
参考スコア（独自算出の注目度）: 3.860979702631594
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel Proximal Policy Optimization (PPO) algorithm aimed at addressing the challenge of maintaining a uniform proton beam intensity delivery in the Muon to Electron Conversion Experiment (Mu2e) at Fermi National Accelerator Laboratory (Fermilab). Our primary objective is to regulate the spill process to ensure a consistent intensity profile, with the ultimate goal of creating an automated controller capable of providing real-time feedback and calibration of the Spill Regulation System (SRS) parameters on a millisecond timescale. We treat the Mu2e accelerator system as a Markov Decision Process suitable for Reinforcement Learning (RL), utilizing PPO to reduce bias and enhance training stability. A key innovation in our approach is the integration of a neuralized Proportional-Integral-Derivative (PID) controller into the policy function, resulting in a significant improvement in the Spill Duty Factor (SDF) by 13.6%, surpassing the performance of the current PID controller baseline by an additional 1.6%. This paper presents the preliminary offline results based on a differentiable simulator of the Mu2e accelerator. It paves the groundwork for real-time implementations and applications, representing a crucial step towards automated proton beam intensity control for the Mu2e experiment.
Abstract（参考訳）: 本稿では,Fermi National Accelerator Laboratory (Fermilab) の Muon to Electron Conversion Experiment (Mu2e) において,均一な陽子ビーム強度の供給を維持するための新しいPPOアルゴリズムを提案する。我々の主な目的は、一貫した強度プロファイルを確保するために流出過程を規制することであり、最終目標は、ミリ秒のタイムスケールでスパイル制御系(SRS)パラメータのリアルタイムフィードバックとキャリブレーションを提供する自動制御装置を作ることである。我々は,Mu2eアクセラレータシステムを強化学習(RL)に適したマルコフ決定プロセスとして扱い,PPOを利用してバイアスを低減し,トレーニング安定性を向上させる。我々のアプローチにおける重要な革新は、ニューラルネットワークされたPIDコントローラをポリシー機能に統合することであり、その結果、現在のPIDコントローラベースラインのパフォーマンスを1.6%上回る13.6%のスパイルデューティファクタ(SDF)が大幅に向上した。本稿では, Mu2e 加速器の微分可能シミュレータに基づいて, 予備的なオフライン結果を示す。これは、Mu2e実験における自動陽子ビーム強度制御への重要なステップであるリアルタイム実装と応用の基盤となる。

関連論文リスト

Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。 PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文参考訳（メタデータ） (2025-02-12T18:54:10Z)
One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文参考訳（メタデータ） (2024-10-28T17:54:31Z)
Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning [0.3562485774739681]
核マイクロリアクターにおける知的制御のための強化学習(RL)アルゴリズムを導入する。近位政策最適化(PPO)とアクター・クリティカル(A2C)を用いたRLエージェントの訓練その結果, 最適ドラム位置同定におけるPPOの優れた性能が示された。
論文参考訳（メタデータ） (2024-06-22T20:14:56Z)
Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文参考訳（メタデータ） (2024-04-08T20:02:19Z)
Real-Time Adaptive Safety-Critical Control with Gaussian Processes in High-Order Uncertain Models [14.790031018404942]
本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。まず,差分スパースGPアルゴリズムを改良するために,まず忘れ係数を積分する。第2フェーズでは,高次制御バリア関数に基づく安全フィルタを提案する。
論文参考訳（メタデータ） (2024-02-29T08:25:32Z)
Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文参考訳（メタデータ） (2023-07-03T19:35:52Z)
TempoRL: laser pulse temporal shape optimization with Deep Reinforcement Learning [0.577478614918139]
高出力レーザー(HPL)の最適性能は、光-物質相互作用に関連する様々な実験タスクの成功に不可欠である。伝統的に、HPLパラメータはブラックボックスの数値法に依存する自動化方式で最適化される。モデルフリーのDeep Reinforcement Learning (DRL)は、HPLパフォーマンスを最適化するための有望な代替フレームワークを提供する。
論文参考訳（メタデータ） (2023-04-20T22:15:27Z)
Real-Time Model-Free Deep Reinforcement Learning for Force Control of a Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文参考訳（メタデータ） (2023-04-11T00:51:47Z)
Performance-Driven Controller Tuning via Derivative-Free Reinforcement Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文参考訳（メタデータ） (2022-09-11T13:01:14Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。