論文の概要: Active Disruption Avoidance and Trajectory Design for Tokamak Ramp-downs
with Neural Differential Equations and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.09387v1
- Date: Wed, 14 Feb 2024 18:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 13:55:02.282131
- Title: Active Disruption Avoidance and Trajectory Design for Tokamak Ramp-downs
with Neural Differential Equations and Reinforcement Learning
- Title(参考訳): ニューラルディファレンシャル方程式と強化学習を用いたトカマクランプダウンの能動破壊回避と軌道設計
- Authors: Allen M. Wang, Oswin So, Charles Dawson, Darren T. Garnier, Cristina
Rea, and Chuchu Fan
- Abstract要約: 我々は、破壊と相関する数量の制限を回避しつつ、プラズマ電流を安全に遮断する政策を訓練する。
トレーニングされたポリシーは、より高い忠実度シミュレーターに転送され、ユーザーが特定した破壊的限界を回避しながら、プラズマをうまく停止させる。
トラジェクトリのライブラリはより解釈可能で、オフラインで検証できるので、このようなアプローチは強化学習の能力を活用するための有望な道である、と我々は主張する。
- 参考スコア(独自算出の注目度): 11.143763372526747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The tokamak offers a promising path to fusion energy, but plasma disruptions
pose a major economic risk, motivating considerable advances in disruption
avoidance. This work develops a reinforcement learning approach to this problem
by training a policy to safely ramp-down the plasma current while avoiding
limits on a number of quantities correlated with disruptions. The policy
training environment is a hybrid physics and machine learning model trained on
simulations of the SPARC primary reference discharge (PRD) ramp-down, an
upcoming burning plasma scenario which we use as a testbed. To address physics
uncertainty and model inaccuracies, the simulation environment is massively
parallelized on GPU with randomized physics parameters during policy training.
The trained policy is then successfully transferred to a higher fidelity
simulator where it successfully ramps down the plasma while avoiding
user-specified disruptive limits. We also address the crucial issue of safety
criticality by demonstrating that a constraint-conditioned policy can be used
as a trajectory design assistant to design a library of feed-forward
trajectories to handle different physics conditions and user settings. As a
library of trajectories is more interpretable and verifiable offline, we argue
such an approach is a promising path for leveraging the capabilities of
reinforcement learning in the safety-critical context of burning plasma
tokamaks. Finally, we demonstrate how the training environment can be a useful
platform for other feed-forward optimization approaches by using an
evolutionary algorithm to perform optimization of feed-forward trajectories
that are robust to physics uncertainty
- Abstract(参考訳): トカマクは核融合エネルギーへの有望な経路を提供するが、プラズマ破壊は大きな経済リスクをもたらし、破壊回避のかなりの進歩を動機付ける。
本研究は、プラズマ電流を安全にランプダウンするポリシーを訓練し、破壊と相関する量の制限を回避し、この問題に対する強化学習アプローチを展開する。
政策訓練環境はSPARC一次基準放電(PRD)ランプダウンのシミュレーションに基づいて訓練されたハイブリッド物理と機械学習モデルである。
物理の不確実性とモデル不正確性に対処するため、シミュレーション環境は、ポリシートレーニング中にランダム化された物理パラメータを持つGPU上で大幅に並列化される。
トレーニングされたポリシーは、より高い忠実度シミュレーターに転送され、ユーザーが特定した破壊的限界を回避しながら、プラズマをうまく停止させる。
また,制約条件付きポリシを軌道設計アシスタントとして使用し,異なる物理条件やユーザ設定を扱うフィードフォワード軌道のライブラリを設計できることを実証することで,安全性クリティカル性の問題にも対処した。
トラジェクトリーのライブラリーはより解釈可能で、オフラインで検証できるので、プラズマトカマクを燃やすという安全クリティカルな文脈で強化学習の能力を活用するための有望な方法であると我々は主張する。
最後に,物理の不確実性にロバストなフィードフォワード軌道の最適化を行う進化的アルゴリズムを用いて,学習環境が他のフィードフォワード最適化手法にとって有用なプラットフォームとなることを示す。
関連論文リスト
- Physics Enhanced Residual Policy Learning (PERPL) for safety cruising in mixed traffic platooning under actuator and communication delay [8.172286651098027]
線形制御モデルは、その単純さ、使いやすさ、安定性解析のサポートにより、車両制御に広範囲に応用されている。
一方、強化学習(RL)モデルは適応性を提供するが、解釈可能性や一般化能力の欠如に悩まされる。
本稿では,物理インフォームドポリシによって強化されたRL制御系の開発を目標とする。
論文 参考訳(メタデータ) (2024-09-23T23:02:34Z) - ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文 参考訳(メタデータ) (2024-09-12T08:26:33Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Policy Learning for Robust Markov Decision Process with a Mismatched
Generative Model [42.28001762749647]
医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。
本稿では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。
我々のゴールは、さらなる技術的困難をもたらす、摂動テスト環境に対するほぼ最適のロバストなポリシーを特定することです。
論文 参考訳(メタデータ) (2022-03-13T06:37:25Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Multiplicative Controller Fusion: Leveraging Algorithmic Priors for
Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。
訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。
本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-11T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。