論文の概要: Policy Gradient-Based EMT-in-the-Loop Learning to Mitigate Sub-Synchronous Control Interactions
- arxiv url: http://arxiv.org/abs/2511.05822v1
- Date: Sat, 08 Nov 2025 03:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.599389
- Title: Policy Gradient-Based EMT-in-the-Loop Learning to Mitigate Sub-Synchronous Control Interactions
- Title(参考訳): 準同期制御インタラクション軽減のためのポリシーグラディエントに基づくEMT-in-the-Loop学習
- Authors: Sayak Mukherjee, Ramij R. Hossain, Kaustav Chatterjee, Sameer Nekkalapu, Marcelo Elizondo,
- Abstract要約: 本稿では,サブ同期発振に対処する学習ベース制御ゲインの開発について検討する。
このようなサブ同期発振の原因となる格子条件を考慮に入れた学習ベースのフレームワークを採用している。
実世界のイベント設定における我々の実験は、深いポリシー勾配に基づく訓練されたポリシーがゲイン設定を適応的に計算できることを示します。
- 参考スコア(独自算出の注目度): 0.2609784101826761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the development of learning-based tunable control gains using EMT-in-the-loop simulation framework (e.g., PSCAD interfaced with Python-based learning modules) to address critical sub-synchronous oscillations. Since sub-synchronous control interactions (SSCI) arise from the mis-tuning of control gains under specific grid configurations, effective mitigation strategies require adaptive re-tuning of these gains. Such adaptiveness can be achieved by employing a closed-loop, learning-based framework that considers the grid conditions responsible for such sub-synchronous oscillations. This paper addresses this need by adopting methodologies inspired by Markov decision process (MDP) based reinforcement learning (RL), with a particular emphasis on simpler deep policy gradient methods with additional SSCI-specific signal processing modules such as down-sampling, bandpass filtering, and oscillation energy dependent reward computations. Our experimentation in a real-world event setting demonstrates that the deep policy gradient based trained policy can adaptively compute gain settings in response to varying grid conditions and optimally suppress control interaction-induced oscillations.
- Abstract(参考訳): 本稿では,EMT-in-the-loopシミュレーションフレームワーク(例えば,Pythonベースの学習モジュールでインターフェースされたPSCAD)を用いて,重要なサブ同期発振に対処する学習ベースチューナブル制御ゲインの開発について検討する。
サブ同期制御相互作用(SSCI)は、特定のグリッド構成下での制御ゲインのミスチューニングから生じるため、効果的な緩和戦略はこれらのゲインを適応的に再チューニングする必要がある。
このような適応性は、そのようなサブ同期発振に責任を負う格子条件を考慮したクローズドループ学習ベースのフレームワークを利用することで達成できる。
本稿では、マルコフ決定過程(MDP)に基づく強化学習(RL)に着想を得た手法を採用し、特に、ダウンサンプリング、帯域通過フィルタリング、発振エネルギー依存報酬計算などのSSCI固有の信号処理モジュールを付加した、より単純なディープポリシー勾配法に重点を置いている。
実世界のイベント・セッティングにおける実験により、深い政策勾配に基づく訓練されたポリシーは、グリッド条件に応じてゲイン・セッティングを適応的に計算し、制御相互作用による発振を最適に抑制できることを示した。
関連論文リスト
- In-Context Learning for Gradient-Free Receiver Adaptation: Principles, Applications, and Theory [54.92893355284945]
ディープラーニングベースの無線受信機は、様々なチャネル環境に動的に適応する能力を提供する。
ジョイントトレーニング、ハイパーネットワークベースの手法、メタラーニングを含む現在の適応戦略は、限られた柔軟性を示すか、勾配降下による明示的な最適化を必要とする。
本稿では、インコンテキスト学習(ICL)の新たなパラダイムに根ざした勾配なし適応手法を提案する。
論文 参考訳(メタデータ) (2025-06-18T06:43:55Z) - Logarithmic Smoothing for Adaptive PAC-Bayesian Off-Policy Learning [4.48890356952206]
オフ政治学習は、ログ化された相互作用から最適なポリシーを学ぶための主要なフレームワークとなる。
我々はこのフレームワークをオンラインPAC-ベイジアン理論のツールを用いて適応シナリオに拡張する。
論文 参考訳(メタデータ) (2025-06-12T12:54:09Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Sim-to-Real Transfer of Adaptive Control Parameters for AUV
Stabilization under Current Disturbance [1.099532646524593]
本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する新しい手法を提案する。
本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。
実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能を3倍に向上することを示した。
論文 参考訳(メタデータ) (2023-10-17T08:46:56Z) - Real-Time Progressive Learning: Accumulate Knowledge from Control with
Neural-Network-Based Selective Memory [2.8638167607890836]
リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御方式を提案する。
RTPLは安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習する。
論文 参考訳(メタデータ) (2023-08-08T12:39:57Z) - Learning Variable Impedance Control for Aerial Sliding on Uneven
Heterogeneous Surfaces by Proprioceptive and Tactile Sensing [42.27572349747162]
本研究では,空中すべり作業に対する学習に基づく適応制御手法を提案する。
提案するコントローラ構造は,データ駆動制御とモデルベース制御を組み合わせたものである。
美術品間相互作用制御手法の微調整状態と比較して,追従誤差の低減と外乱拒否の改善を実現した。
論文 参考訳(メタデータ) (2022-06-28T16:28:59Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。