論文の概要: TempoRL: laser pulse temporal shape optimization with Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2304.12187v1
- Date: Thu, 20 Apr 2023 22:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:25:23.917146
- Title: TempoRL: laser pulse temporal shape optimization with Deep Reinforcement
Learning
- Title(参考訳): TempoRL:Deep Reinforcement Learningを用いたレーザーパルス時間形状最適化
- Authors: Francesco Capuano and Davorin Peceli and Gabriele Tiboni and Raffaello
Camoriano and Bed\v{r}ich Rus
- Abstract要約: 高出力レーザー(HPL)の最適性能は、光-物質相互作用に関連する様々な実験タスクの成功に不可欠である。
伝統的に、HPLパラメータはブラックボックスの数値法に依存する自動化方式で最適化される。
モデルフリーのDeep Reinforcement Learning (DRL)は、HPLパフォーマンスを最適化するための有望な代替フレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.577478614918139
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High Power Laser's (HPL) optimal performance is essential for the success of
a wide variety of experimental tasks related to light-matter interactions.
Traditionally, HPL parameters are optimised in an automated fashion relying on
black-box numerical methods. However, these can be demanding in terms of
computational resources and usually disregard transient and complex dynamics.
Model-free Deep Reinforcement Learning (DRL) offers a promising alternative
framework for optimising HPL performance since it allows to tune the control
parameters as a function of system states subject to nonlinear temporal
dynamics without requiring an explicit dynamics model of those. Furthermore,
DRL aims to find an optimal control policy rather than a static parameter
configuration, particularly suitable for dynamic processes involving sequential
decision-making. This is particularly relevant as laser systems are typically
characterised by dynamic rather than static traits. Hence the need for a
strategy to choose the control applied based on the current context instead of
one single optimal control configuration. This paper investigates the potential
of DRL in improving the efficiency and safety of HPL control systems. We apply
this technique to optimise the temporal profile of laser pulses in the L1 pump
laser hosted at the ELI Beamlines facility. We show how to adapt DRL to the
setting of spectral phase control by solely tuning dispersion coefficients of
the spectral phase and reaching pulses similar to transform limited with
full-width at half-maximum (FWHM) of ca1.6 ps.
- Abstract(参考訳): 高出力レーザー(HPL)の最適性能は、光-物質相互作用に関連する様々な実験タスクの成功に不可欠である。
伝統的に、HPLパラメータはブラックボックスの数値法に依存する自動化方式で最適化される。
しかしながら、これらは計算資源の観点から要求され、通常は過渡的かつ複雑な力学を無視する。
モデルフリーの深層強化学習(drl)は、制御パラメータを非線形時相力学に従属する系の関数として調整できるため、hplの性能を最適化するための有望な代替フレームワークを提供する。
さらに、DRLは、静的パラメータ設定よりも、特にシーケンシャルな意思決定を含む動的なプロセスに適した最適制御ポリシーを見つけることを目指している。
レーザーシステムは一般に静的な特性ではなく動的に特徴付けられるため、これは特に関係がある。
したがって、単一の最適制御構成ではなく、現在のコンテキストに基づいて適用される制御を選択する戦略が必要となる。
本稿では,HPL制御システムの効率性と安全性向上におけるDRLの可能性を検討する。
この手法をeliビームラインにホストされたl1ポンプレーザーにおけるレーザーパルスの時間分布の最適化に応用する。
スペクトル位相の分散係数のみを調整し、ca1.6psのフル幅(fwhm)で制限された変換に類似したパルスに達することで、drlをスペクトル位相制御の設定に適応する方法を示す。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam
Intensity Control in Mu2e [3.860979702631594]
我々は,Fermi National Accelerator Laboratory (Fermilab) におけるMuon to Electron Conversion Experiment (Mu2e) における均一な陽子ビーム強度の伝達を維持することを目的とした,新しいPPOアルゴリズムを提案する。
我々の主な目的は、一貫した強度プロファイルを確保するために、一貫した強度プロファイルを確保するために、スピル制御システム(SRS)パラメータのリアルタイムフィードバックとキャリブレーションをミリ秒のタイムスケールで実現する自動制御器を作成することにある。
論文 参考訳(メタデータ) (2023-12-28T21:35:20Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。