論文の概要: Action-Attentive Deep Reinforcement Learning for Autonomous Alignment of Beamlines
- arxiv url: http://arxiv.org/abs/2411.12183v1
- Date: Tue, 19 Nov 2024 02:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:35:18.503664
- Title: Action-Attentive Deep Reinforcement Learning for Autonomous Alignment of Beamlines
- Title(参考訳): ビームラインの自律的アライメントのためのアクション注意深部強化学習
- Authors: Siyu Wang, Shengran Dai, Jianhui Jiang, Shuang Wu, Yufei Peng, Junbin Zhang,
- Abstract要約: 放射光源は材料科学、生物学、化学などの分野で重要な役割を果たしている。
ビームラインのアライメントは複雑で時間を要するプロセスであり、主にエンジニアが手動で行う。
本稿では,ビームラインのアライメントをマルコフ決定プロセス(MDP)としてモデル化し,RLを用いたインテリジェントエージェントのトレーニングを行う。
- 参考スコア(独自算出の注目度): 8.893851834398179
- License:
- Abstract: Synchrotron radiation sources play a crucial role in fields such as materials science, biology, and chemistry. The beamline, a key subsystem of the synchrotron, modulates and directs the radiation to the sample for analysis. However, the alignment of beamlines is a complex and time-consuming process, primarily carried out manually by experienced engineers. Even minor misalignments in optical components can significantly affect the beam's properties, leading to suboptimal experimental outcomes. Current automated methods, such as bayesian optimization (BO) and reinforcement learning (RL), although these methods enhance performance, limitations remain. The relationship between the current and target beam properties, crucial for determining the adjustment, is not fully considered. Additionally, the physical characteristics of optical elements are overlooked, such as the need to adjust specific devices to control the output beam's spot size or position. This paper addresses the alignment of beamlines by modeling it as a Markov Decision Process (MDP) and training an intelligent agent using RL. The agent calculates adjustment values based on the current and target beam states, executes actions, and iterates until optimal parameters are achieved. A policy network with action attention is designed to improve decision-making by considering both state differences and the impact of optical components. Experiments on two simulated beamlines demonstrate that our algorithm outperforms existing methods, with ablation studies highlighting the effectiveness of the action attention-based policy network.
- Abstract(参考訳): 放射光源は材料科学、生物学、化学などの分野で重要な役割を果たしている。
シンクロトロンの重要なサブシステムであるビームラインは、分析のために試料に放射を変調して誘導する。
しかし、ビームラインのアライメントは複雑で時間を要するプロセスであり、主に経験豊富な技術者によって手動で実行される。
光学部品の小さなミスアライメントでさえビームの特性に大きく影響し、最適以下の実験結果をもたらす。
ベイジアン最適化 (BO) や強化学習 (RL) といった現在の自動化手法は性能を向上するが、限界は残る。
調整に欠かせない電流と目標ビーム特性の関係は, 完全には考慮されていない。
さらに、出力ビームのスポットサイズや位置を制御するために特定のデバイスを調整する必要があるなど、光学素子の物理的特性は見過ごされる。
本稿では,ビームラインのアライメントをマルコフ決定プロセス(MDP)としてモデル化し,RLを用いたインテリジェントエージェントのトレーニングを行う。
エージェントは、電流及び目標ビーム状態に基づいて調整値を算出し、動作を実行し、最適なパラメータが達成されるまで反復する。
アクションアテンションを持つポリシーネットワークは、状態差と光学部品の影響を考慮し、意思決定を改善するように設計されている。
2つの模擬ビームラインの実験により、我々のアルゴリズムは既存の手法よりも優れており、アブレーション研究はアクションアテンションに基づくポリシーネットワークの有効性を強調している。
関連論文リスト
- Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。
既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。
本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-21T04:39:45Z) - Dynamic Exclusion of Low-Fidelity Data in Bayesian Optimization for Autonomous Beamline Alignment [0.0]
本研究は、ビーム品質の信頼できない読み出しを識別し、最適化モデルが低忠実度ビームを産出する可能性のある点を求めることを阻止する手法の研究である。
探索されたアプローチには、サイズと位置モデルの損失解析を用いた動的プルーニングと、最適な適合のためにモデルにどの点を含めるべきかを決定する長さスケールに基づく遺伝的アルゴリズムが含まれる。
論文 参考訳(メタデータ) (2024-08-13T00:20:39Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Laboratory Experiments of Model-based Reinforcement Learning for
Adaptive Optics Control [0.565395466029518]
ESO本部のGHOSTテストベンチに、AO(PO4AO)のためのポリシー最適化と呼ばれるRL手法を実装し、適応する。
本手法の予測的・自己校正的側面について検討する。
PyTorchを実行しているGHOSTの新しい実装では、ハードウェア、パイプライン、Pythonインターフェースのレイテンシに加えて、700マイクロ秒程度しか導入されていない。
論文 参考訳(メタデータ) (2023-12-30T14:11:43Z) - Machine Learning For Beamline Steering [0.0]
ビームラインのLINAC To Undulatorセクションを狙うのは難しい。
加速器の使用には、このセクションの磁石の再校正が必要である。
本稿では,この課題を支援するために,ディープニューラルネットワークの利用について検討する。
論文 参考訳(メタデータ) (2023-11-13T18:00:06Z) - TempoRL: laser pulse temporal shape optimization with Deep Reinforcement
Learning [0.577478614918139]
高出力レーザー(HPL)の最適性能は、光-物質相互作用に関連する様々な実験タスクの成功に不可欠である。
伝統的に、HPLパラメータはブラックボックスの数値法に依存する自動化方式で最適化される。
モデルフリーのDeep Reinforcement Learning (DRL)は、HPLパフォーマンスを最適化するための有望な代替フレームワークを提供する。
論文 参考訳(メタデータ) (2023-04-20T22:15:27Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Aligning an optical interferometer with beam divergence control and
continuous action space [64.71260357476602]
我々は1本の腕に共焦点望遠鏡を備えた光学的マッハ・ツェンダー干渉計の視覚に基づくアライメントを実装した。
実験的評価では、エージェントは、既存のソリューションと人間の専門家とを著しく上回る。
論文 参考訳(メタデータ) (2021-07-09T14:23:01Z) - Interferobot: aligning an optical interferometer by a reinforcement
learning agent [118.43526477102573]
我々は、単眼カメラで取得した縁の画像に基づいて、マッハ・ツェンダー干渉計を整列するようにRLエージェントを訓練する。
エージェントは、物理に関する手書きの特徴や事前情報なしで、シミュレーション環境で訓練される。
物理測定の不確かさをシミュレートする一連の領域ランダム化により、エージェントはこの干渉計を微調整なしで整列させることに成功した。
論文 参考訳(メタデータ) (2020-06-03T13:10:54Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - A Reinforcement Learning based approach for Multi-target Detection in
Massive MIMO radar [12.982044791524494]
本稿では,MMIMO(Multiple input Multiple output)認知レーダ(CR)におけるマルチターゲット検出の問題点について考察する。
本稿では,未知の外乱統計の存在下での認知的マルチターゲット検出のための強化学習(RL)に基づくアルゴリズムを提案する。
定常環境と動的環境の両方において提案したRLアルゴリズムの性能を評価するため, 数値シミュレーションを行った。
論文 参考訳(メタデータ) (2020-05-10T16:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。