論文の概要: Plasma Shape Control via Zero-shot Generative Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.17531v1
- Date: Mon, 20 Oct 2025 13:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.468395
- Title: Plasma Shape Control via Zero-shot Generative Reinforcement Learning
- Title(参考訳): ゼロショット生成強化学習によるプラズマ形状制御
- Authors: Niannian Wu, Rongpeng Li, Zongyu Yang, Yong Xiao, Ning Wei, Yihang Chen, Bo Li, Zhifeng Zhao, Wulyu Zhong,
- Abstract要約: PID制御放電の大規模オフラインデータセットから多目的ゼロショット制御ポリシーを開発するための新しいフレームワークを開発する。
結果として得られる基本方針は、タスク固有の微調整なしで、ゼロショットで多様な軌道追跡タスクに対して展開することができる。
- 参考スコア(独自算出の注目度): 17.3934551430283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional PID controllers have limited adaptability for plasma shape control, and task-specific reinforcement learning (RL) methods suffer from limited generalization and the need for repetitive retraining. To overcome these challenges, this paper proposes a novel framework for developing a versatile, zero-shot control policy from a large-scale offline dataset of historical PID-controlled discharges. Our approach synergistically combines Generative Adversarial Imitation Learning (GAIL) with Hilbert space representation learning to achieve dual objectives: mimicking the stable operational style of the PID data and constructing a geometrically structured latent space for efficient, goal-directed control. The resulting foundation policy can be deployed for diverse trajectory tracking tasks in a zero-shot manner without any task-specific fine-tuning. Evaluations on the HL-3 tokamak simulator demonstrate that the policy excels at precisely and stably tracking reference trajectories for key shape parameters across a range of plasma scenarios. This work presents a viable pathway toward developing highly flexible and data-efficient intelligent control systems for future fusion reactors.
- Abstract(参考訳): 従来のPIDコントローラはプラズマ形状制御への適応性に制限があり、タスク固有強化学習(RL)法は一般化の制限と反復的再訓練の必要性に悩まされている。
これらの課題を克服するために,歴史的PID制御放電の大規模オフラインデータセットから多目的ゼロショット制御ポリシーを開発するための新しいフレームワークを提案する。
提案手法は,PIDデータの安定な操作スタイルを模倣し,幾何学的に構造化された潜在空間を構築し,効率的な目標指向制御を実現するため,GAILとHilbert空間表現学習を相乗的に組み合わせた手法である。
結果として得られる基本方針は、タスク固有の微調整なしで、ゼロショット方式で多様な軌道追跡タスクに対して展開することができる。
HL-3トカマクシミュレータによる評価では, 基準軌道を正確にかつ安定に追跡し, 様々なプラズマシナリオにおけるキー形状パラメータを推定する。
この研究は、将来の核融合炉のための高度にフレキシブルでデータ効率の良いインテリジェント制御システムを開発するための有効な経路を示す。
関連論文リスト
- TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [61.145371212636505]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。
異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Goal-Conditioned Predictive Coding for Offline Reinforcement Learning [24.300131097275298]
本研究は, シーケンス・モデリングがトラジェクトリを, ポリシー学習を促進する有用な表現に凝縮する能力を持つかどうかを考察する。
本稿では、強力な軌道表現を導出し、実行ポリシーをもたらすシーケンスモデリングの目的であるゴール・コンディション付き予測符号化を紹介する。
論文 参考訳(メタデータ) (2023-07-07T06:12:14Z) - RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion [16.800984476447624]
本稿では,モデルに基づく最適制御と強化学習を組み合わせた制御フレームワークを提案する。
我々は、一連の実験を通じて、フレームワークの堅牢性と制御性を検証する。
本フレームワークは,多様な次元を持つロボットに対する制御ポリシーのトレーニングを,無力的に支援する。
論文 参考訳(メタデータ) (2023-05-29T01:33:55Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。