論文の概要: A Method to Improve the Performance of Reinforcement Learning Based on
the Y Operator for a Class of Stochastic Differential Equation-Based
Child-Mother Systems
- arxiv url: http://arxiv.org/abs/2311.04014v1
- Date: Tue, 7 Nov 2023 14:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:26:39.127934
- Title: A Method to Improve the Performance of Reinforcement Learning Based on
the Y Operator for a Class of Stochastic Differential Equation-Based
Child-Mother Systems
- Title(参考訳): 確率微分方程式に基づく児童母系におけるY演算子に基づく強化学習の性能向上の一手法
- Authors: Cheng Yin, Yi Chen
- Abstract要約: 本稿では,交流型強化学習における制御性能を高めるために,Y演算子と呼ばれる新しい演算子を提案する。
Y演算子は、子母系のクラスをCritic Networkの損失関数に統合する。
厳密な数学的証明は、演算子の妥当性を確認する。
- 参考スコア(独自算出の注目度): 7.00113000373872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel operator, termed the Y operator, to elevate
control performance in Actor-Critic(AC) based reinforcement learning for
systems governed by stochastic differential equations(SDEs). The Y operator
ingeniously integrates the stochasticity of a class of child-mother system into
the Critic network's loss function, yielding substantial advancements in the
control performance of RL algorithms.Additionally, the Y operator elegantly
reformulates the challenge of solving partial differential equations for the
state-value function into a parallel problem for the drift and diffusion
functions within the system's SDEs.A rigorous mathematical proof confirms the
operator's validity.This transformation enables the Y Operator-based
Reinforcement Learning(YORL) framework to efficiently tackle optimal control
problems in both model-based and data-driven systems.The superiority of YORL is
demonstrated through linear and nonlinear numerical examples showing its
enhanced performance over existing methods post convergence.
- Abstract(参考訳): 本稿では,確率微分方程式(SDEs)に支配されるシステムに対するアクタ・クライト(AC)に基づく強化学習における制御性能を高めるために,Y演算子と呼ばれる新しい演算子を提案する。
The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - A Physics-Informed Machine Learning Approach for Solving Distributed Order Fractional Differential Equations [0.0]
本稿では,物理インフォームド機械学習フレームワークを用いた分散次分数差分方程式の解法を提案する。
分散階関数式をSVRフレームワークに組み込むことで、物理法則を直接学習プロセスに組み込む。
提案手法の有効性は,Caputo-based distributed-order fractional differential equationsの数値実験を通じて検証した。
論文 参考訳(メタデータ) (2024-09-05T13:20:10Z) - DOF: Accelerating High-order Differential Operators with Forward
Propagation [40.71528485918067]
一般の2階微分演算子を精度を損なわずに計算するための効率的なフレームワークである差分演算子(DOF)を提案する。
我々は、効率が2倍改善され、どんなアーキテクチャでもメモリ消費が削減されたことを実証する。
実験結果から,本手法は従来の自動微分法(AutoDiff)よりも優れ,構造が2倍,空間が20倍近く向上していることがわかった。
論文 参考訳(メタデータ) (2024-02-15T05:59:21Z) - PICL: Physics Informed Contrastive Learning for Partial Differential Equations [7.136205674624813]
我々は,複数の支配方程式にまたがるニューラル演算子一般化を同時に改善する,新しいコントラスト事前学習フレームワークを開発する。
物理インフォームドシステムの進化と潜在空間モデル出力の組み合わせは、入力データに固定され、我々の距離関数で使用される。
物理インフォームドコントラストプレトレーニングにより,1次元および2次元熱,バーガーズ,線形対流方程式に対する固定フューチャーおよび自己回帰ロールアウトタスクにおけるフーリエニューラル演算子の精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-01-29T17:32:22Z) - An Orthogonal Polynomial Kernel-Based Machine Learning Model for
Differential-Algebraic Equations [0.24578723416255746]
本稿では,LS-SVR機械学習モデル,重み付き残差法,レジェンダ間の接続を確立することにより,一般DAEを演算子形式で解く新しい手法を提案する。
提案手法の有効性を評価するため,非線形システム,分数次微分,積分微分,部分DAEなど,様々なDAEシナリオを考慮したシミュレーションを行った。
論文 参考訳(メタデータ) (2024-01-25T18:37:17Z) - Accelerating Fractional PINNs using Operational Matrices of Derivative [0.24578723416255746]
本稿では,分数次物理学情報ニューラルネットワーク(fPINN)の学習を高速化する新しい演算行列法を提案する。
提案手法では、カプトー型分数微分問題において、0alpha1$での分数導関数の高速な計算を容易にする。
提案手法の有効性は,遅延微分方程式 (DDE) や微分代数方程式 (DAE) など,様々な微分方程式にまたがって検証される。
論文 参考訳(メタデータ) (2024-01-25T11:00:19Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。