論文の概要: Towards practical reinforcement learning for tokamak magnetic control
- arxiv url: http://arxiv.org/abs/2307.11546v2
- Date: Thu, 5 Oct 2023 09:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 21:51:27.484793
- Title: Towards practical reinforcement learning for tokamak magnetic control
- Title(参考訳): トカマク磁気制御の実用的強化学習に向けて
- Authors: Brendan D. Tracey and Andrea Michi and Yuri Chervonyi and Ian Davies
and Cosmin Paduraru and Nevena Lazic and Federico Felici and Timo Ewalds and
Craig Donner and Cristian Galperti and Jonas Buchli and Michael Neunert and
Andrea Huber and Jonathan Evens and Paula Kurylowicz and Daniel J. Mankowitz
and Martin Riedmiller and The TCV Team
- Abstract要約: 強化学習(RL)は、プラズマ磁気制御の領域を含むリアルタイム制御システムにおいて有望な結果を示している。
所望のプラズマ特性に対する制御精度の向上,定常誤差の低減,新しいタスクの学習に必要な時間短縮など,RL法の重要な欠点に対処する。
シミュレーションの結果, 形状精度が最大65%向上し, プラズマ電流の長期バイアスを大幅に低減し, 新たなタスクの学習に要するトレーニング時間を3以上短縮できることがわかった。
- 参考スコア(独自算出の注目度): 6.944203272529803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown promising results for real-time control
systems, including the domain of plasma magnetic control. However, there are
still significant drawbacks compared to traditional feedback control approaches
for magnetic confinement. In this work, we address key drawbacks of the RL
method; achieving higher control accuracy for desired plasma properties,
reducing the steady-state error, and decreasing the required time to learn new
tasks. We build on top of \cite{degrave2022magnetic}, and present algorithmic
improvements to the agent architecture and training procedure. We present
simulation results that show up to 65\% improvement in shape accuracy, achieve
substantial reduction in the long-term bias of the plasma current, and
additionally reduce the training time required to learn new tasks by a factor
of 3 or more. We present new experiments using the upgraded RL-based
controllers on the TCV tokamak, which validate the simulation results achieved,
and point the way towards routinely achieving accurate discharges using the RL
approach.
- Abstract(参考訳): 強化学習(rl)はプラズマ磁気制御の領域を含むリアルタイム制御システムにおいて有望な結果を示している。
しかし、磁気閉じ込めに対する従来のフィードバック制御手法と比較しても大きな欠点がある。
本研究では, RL法の重要な欠点に対処し, 所望のプラズマ特性に対する制御精度の向上, 定常誤差の低減, 新たなタスクの学習に必要な時間短縮を実現する。
我々は, \cite{degrave2022magnetic}上に構築し,エージェントアーキテクチャとトレーニング手順のアルゴリズム的改善を提案する。
本研究では, 形状精度が最大65\%向上し, プラズマ電流の長期バイアスが大幅に低減し, 新たなタスクの学習に要する訓練時間を3倍以上削減したシミュレーション結果を示す。
我々は,TCVトカマクに改良されたRLベースの制御器を用いた新しい実験を行い,シミュレーション結果を検証し,RLアプローチを用いて正確な放電を実現する方法を示す。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Stock Trading Optimization through Model-based Reinforcement Learning
with Resistance Support Relative Strength [4.322320095367326]
我々は、モデルベース強化学習(MBRL)アルゴリズムにおける行動の正規化用語として、抵抗とサポート(RS)レベルを活用する新しいアプローチを設計する。
提案手法は、新型コロナウイルス(COVID-19)のパンデミック期、金融市場が予測不可能な危機に陥った時に、大きな下落(最大減損)にも耐えられる。
論文 参考訳(メタデータ) (2022-05-30T12:36:48Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - On the Effectiveness of Iterative Learning Control [28.76900887141432]
反復学習制御 (ILC) は, モデル誤差の存在下で, 高い性能追跡を行うための強力な手法である。
大規模なモデリングエラーがあっても、ICCの有効性を説明する理論的な研究はほとんどない。
ILC の最適 LQR コントローラに対して測定された準最適差は,高次項による MM よりも小さいことを示す。
論文 参考訳(メタデータ) (2021-11-17T22:35:39Z) - Reducing the Long Tail Losses in Scientific Emulations with Active
Learning [0.0]
本研究では、コアセット選択と呼ばれるアクティブな学習手法を利用して、事前定義された予算に従ってデータを積極的に選択し、トレーニング用にラベル付けした。
本研究では、天体物理学における銀河ハロ占有分布とプラズマ物理学におけるX線放射分光の2つのケーススタディについて検討した。
論文 参考訳(メタデータ) (2021-11-15T09:02:00Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Unsupervised MR Motion Artifact Deep Learning using Outlier-Rejecting
Bootstrap Aggregation [37.41561581618164]
そこで本研究では,外乱除去型ブートストラップサブサンプリングとアグリゲーションによる教師なし深層学習手法を提案する。
トレーニングステップでは、アーティファクトフリーの画像のみを必要とするため、ペアデータを必要としない。
本手法は, 模擬動作からのアーチファクト修正や, TSMからのリアルタイム動作に有効であることを確認した。
論文 参考訳(メタデータ) (2020-11-12T12:10:58Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。