Fugu-MT 論文翻訳(概要): Bi-level Off-policy Reinforcement Learning for Volt/VAR Control Involving Continuous and Discrete Devices

論文の概要: Bi-level Off-policy Reinforcement Learning for Volt/VAR Control Involving Continuous and Discrete Devices

arxiv url: http://arxiv.org/abs/2104.05902v1
Date: Tue, 13 Apr 2021 02:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-14 13:40:14.802339
Title: Bi-level Off-policy Reinforcement Learning for Volt/VAR Control Involving Continuous and Discrete Devices
Title（参考訳）: 連続・離散デバイスを含むVolt/VAR制御のための二段階オフポリティクス強化学習
Authors: Haotian Liu, Wenchuan Wu
Abstract要約: Volt/Varコントロールでは、スロータイムスケールの離散デバイス(STDD)と高速タイムスケールの連続デバイス(FTCD)の両方が関与する。従来の最適化手法はシステムの正確なモデルに強く依存しているが、モデル化に対する耐え難い努力のために実用的でない場合もある。本論文では, この問題をモデルフリーで解くために, RL(バイレベル・オフポリシ強化学習)アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 2.079959811127612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In Volt/Var control (VVC) of active distribution networks(ADNs), both slow timescale discrete devices (STDDs) and fast timescale continuous devices (FTCDs) are involved. The STDDs such as on-load tap changers (OLTC) and FTCDs such as distributed generators should be coordinated in time sequence. Such VCC is formulated as a two-timescale optimization problem to jointly optimize FTCDs and STDDs in ADNs. Traditional optimization methods are heavily based on accurate models of the system, but sometimes impractical because of their unaffordable effort on modelling. In this paper, a novel bi-level off-policy reinforcement learning (RL) algorithm is proposed to solve this problem in a model-free manner. A Bi-level Markov decision process (BMDP) is defined to describe the two-timescale VVC problem and separate agents are set up for the slow and fast timescale sub-problems. For the fast timescale sub-problem, we adopt an off-policy RL method soft actor-critic with high sample efficiency. For the slow one, we develop an off-policy multi-discrete soft actor-critic (MDSAC) algorithm to address the curse of dimensionality with various STDDs. To mitigate the non-stationary issue existing the two agents' learning processes, we propose a multi-timescale off-policy correction (MTOPC) method by adopting importance sampling technique. Comprehensive numerical studies not only demonstrate that the proposed method can achieve stable and satisfactory optimization of both STDDs and FTCDs without any model information, but also support that the proposed method outperforms existing two-timescale VVC methods.
Abstract（参考訳）: アクティブ分散ネットワーク(ADN)のVolt/Var制御(VVC)では、スロータイムスケール離散デバイス(STDD)と高速タイムスケール連続デバイス(FTCD)の両方が関与する。オンロードタップ切換器(oltc)のようなstddと分散ジェネレータのようなftcdは時系列で調整されるべきである。このようなVCCは、ADNにおけるFTCDとSTDDを協調的に最適化する2段階最適化問題として定式化されている。従来の最適化手法はシステムの正確なモデルに強く依存しているが、モデル化に対する耐え難い努力のために実用的でない場合もある。本稿では,この問題をモデルフリーで解くために,新しい2レベルオフポリシー強化学習(rl)アルゴリズムを提案する。バイレベルマルコフ決定プロセス(BMDP)は、2時間スケールのVVC問題を記述するために定義され、遅くて速い時間スケールのサブプロブレムに対して別々のエージェントが設定される。高速な時間スケールサブプロブレムでは, サンプル効率の高いソフトアクター・クリティックのオフポリティ・RL法を採用する。遅いものには、様々なSTDDを用いて次元の呪いに対処する、オフ・ポリティクスのマルチディスク・ソフトアクター・クリティック(MDSAC)アルゴリズムを開発する。両エージェントの学習プロセスに存在する非定常的問題を緩和するため,重要サンプリング手法を用いてマルチタイムオフポリチ補正(MTOPC)手法を提案する。総合的な数値研究は、提案手法がモデル情報なしでSTDDとFTCDの安定かつ良好な最適化を達成できるだけでなく、提案手法が既存の2段階VVC法より優れていることを裏付けるものである。

関連論文リスト

ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models [32.840734752367275]
Prototype-based Double-Check separation (ProtoDCS)はOSTTAの堅牢なフレームワークである。 csIDとcsOODを分離し、ビジョン言語モデルのcsIDデータへの安全かつ効率的な適応を可能にする。 ProtoDCSは、既知のクラス精度とOOD検出メトリクスの両方を大幅に向上させる。
論文参考訳（メタデータ） (2026-02-27T03:39:02Z)
Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文参考訳（メタデータ） (2025-12-28T05:48:55Z)
TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。 TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文参考訳（メタデータ） (2025-12-13T07:53:14Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。 PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文参考訳（メタデータ） (2025-02-12T18:54:10Z)
Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。 The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文参考訳（メタデータ） (2025-02-05T07:13:43Z)
BiT-MamSleep: Bidirectional Temporal Mamba for EEG Sleep Staging [9.917709200378217]
BiT-MamSleepは,Triple-Resolution CNN(TRCNN)を統合し,効率的なマルチスケール特徴抽出を行う新しいアーキテクチャである。 BiT-MamSleepにはAdaptive Feature Recalibration (AFR)モジュールと時間拡張ブロックが組み込まれている。 4つの公開データセットの実験は、BiT-MamSleepが最先端の手法を大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-11-03T14:49:11Z)
Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文参考訳（メタデータ） (2024-11-03T07:01:13Z)
Augmented Lagrangian-Based Safe Reinforcement Learning Approach for Distribution System Volt/VAR Control [1.1059341532498634]
本稿では,Volt-VAR制御問題をマルコフ決定過程(CMDP)として定式化する。本稿では, CMDP を解くために, 安全な非政治強化学習(RL)手法を提案する。オフライントレーニングとオンライン実行には2段階の戦略が採用されているため、正確な分散システムモデルはもはや不要である。
論文参考訳（メタデータ） (2024-10-19T19:45:09Z)
Temporal Prototype-Aware Learning for Active Voltage Control on Power Distribution Networks [28.630650305620197]
電力配電ネットワーク(PDN)のアクティブ電圧制御(AVC)は、電力系統の効率と信頼性を確保するために電圧レベルを安定化することを目的としている。短時間の訓練軌跡下での時間適応的依存関係を学習するために,TPAと略される新しい時間的プロトタイプ認識学習法を提案する。
論文参考訳（メタデータ） (2024-06-25T08:07:00Z)
Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
時系列予測(TSF)のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文参考訳（メタデータ） (2024-06-06T05:27:33Z)
When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文参考訳（メタデータ） (2024-06-03T09:57:18Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
An Accelerated Doubly Stochastic Gradient Method with Faster Explicit Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文参考訳（メタデータ） (2022-08-11T22:27:22Z)
Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文参考訳（メタデータ） (2021-11-26T18:44:59Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。