論文の概要: A Method to Improve the Performance of Reinforcement Learning Based on
the Y Operator for a Class of Stochastic Differential Equation-Based
Child-Mother Systems
- arxiv url: http://arxiv.org/abs/2311.04014v2
- Date: Mon, 27 Nov 2023 17:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 13:19:17.100973
- Title: A Method to Improve the Performance of Reinforcement Learning Based on
the Y Operator for a Class of Stochastic Differential Equation-Based
Child-Mother Systems
- Title(参考訳): 確率微分方程式に基づく児童母系におけるY演算子に基づく強化学習の性能向上の一手法
- Authors: Cheng Yin, Yi Chen
- Abstract要約: 本稿では,交流型強化学習における制御性能を高めるために,Y演算子と呼ばれる新しい演算子を提案する。
Y演算子は、子母系のクラスをCritic Networkの損失関数に統合する。
厳密な数学的証明は、演算子の妥当性を確認する。
- 参考スコア(独自算出の注目度): 7.00113000373872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel operator, termed the Y operator, to elevate
control performance in Actor-Critic(AC) based reinforcement learning for
systems governed by stochastic differential equations(SDEs). The Y operator
ingeniously integrates the stochasticity of a class of child-mother system into
the Critic network's loss function, yielding substantial advancements in the
control performance of RL algorithms.Additionally, the Y operator elegantly
reformulates the challenge of solving partial differential equations for the
state-value function into a parallel problem for the drift and diffusion
functions within the system's SDEs.A rigorous mathematical proof confirms the
operator's validity.This transformation enables the Y Operator-based
Reinforcement Learning(YORL) framework to efficiently tackle optimal control
problems in both model-based and data-driven systems.The superiority of YORL is
demonstrated through linear and nonlinear numerical examples showing its
enhanced performance over existing methods post convergence.
- Abstract(参考訳): 本稿では,確率微分方程式(SDEs)に支配されるシステムに対するアクタ・クライト(AC)に基づく強化学習における制御性能を高めるために,Y演算子と呼ばれる新しい演算子を提案する。
The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.
関連論文リスト
- DOF: Accelerating High-order Differential Operators with Forward
Propagation [40.71528485918067]
一般の2階微分演算子を精度を損なわずに計算するための効率的なフレームワークである差分演算子(DOF)を提案する。
我々は、効率が2倍改善され、どんなアーキテクチャでもメモリ消費が削減されたことを実証する。
実験結果から,本手法は従来の自動微分法(AutoDiff)よりも優れ,構造が2倍,空間が20倍近く向上していることがわかった。
論文 参考訳(メタデータ) (2024-02-15T05:59:21Z) - PICL: Physics Informed Contrastive Learning for Partial Differential
Equations [8.430481660019451]
一般化されたコントラスト的損失を利用した新しいコントラスト的事前学習フレームワークを開発した。
物理インフォームドコントラストプレトレーニングは、固定未来タスクにおけるフーリエニューラル演算子の精度と一般化の両方を改善する。
論文 参考訳(メタデータ) (2024-01-29T17:32:22Z) - An Orthogonal Polynomial Kernel-Based Machine Learning Model for
Differential-Algebraic Equations [0.24578723416255746]
本稿では,LS-SVR機械学習モデル,重み付き残差法,レジェンダ間の接続を確立することにより,一般DAEを演算子形式で解く新しい手法を提案する。
提案手法の有効性を評価するため,非線形システム,分数次微分,積分微分,部分DAEなど,様々なDAEシナリオを考慮したシミュレーションを行った。
論文 参考訳(メタデータ) (2024-01-25T18:37:17Z) - Accelerating Fractional PINNs using Operational Matrices of Derivative [0.24578723416255746]
本稿では,分数次物理学情報ニューラルネットワーク(fPINN)の学習を高速化する新しい演算行列法を提案する。
提案手法では、カプトー型分数微分問題において、0alpha1$での分数導関数の高速な計算を容易にする。
提案手法の有効性は,遅延微分方程式 (DDE) や微分代数方程式 (DAE) など,様々な微分方程式にまたがって検証される。
論文 参考訳(メタデータ) (2024-01-25T11:00:19Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Engineered Ordinary Differential Equations as Classification Algorithm
(EODECA): thorough characterization and testing [1.0499611180329806]
本稿では,機械学習と動的システム理論の交叉における新しいアプローチであるEODECAを提案する。
EODECAの設計には、安定したアトラクタをフェーズ空間に埋め込む機能が含まれており、信頼性を高め、可逆的なダイナミクスを可能にする。
我々は,MNISTデータセットとFashion MNISTデータセットに対するEODECAの有効性を実証し,それぞれ98.06%,88.21%の精度を達成した。
論文 参考訳(メタデータ) (2023-12-22T13:34:18Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。