論文の概要: Reinforcement Learning-based Control via Y-wise Affine Neural Networks (YANNs)
- arxiv url: http://arxiv.org/abs/2508.16474v1
- Date: Fri, 22 Aug 2025 15:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.433312
- Title: Reinforcement Learning-based Control via Y-wise Affine Neural Networks (YANNs)
- Title(参考訳): Y-wise Affine Neural Networks (YANN)による強化学習ベース制御
- Authors: Austin Braniff, Yuhe Tian,
- Abstract要約: 本研究は,Y-wise Affine Neural Networks(YANN)に基づく新しい強化学習(RL)アルゴリズムを提案する。
YANNは、任意の入力次元と出力次元の既知の断片的なアフィン関数を表現することができる解釈可能なニューラルネットワークを提供する。
YANN-RLアルゴリズムは、クリップされた安全臨界化学系上で実証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a novel reinforcement learning (RL) algorithm based on Y-wise Affine Neural Networks (YANNs). YANNs provide an interpretable neural network which can exactly represent known piecewise affine functions of arbitrary input and output dimensions defined on any amount of polytopic subdomains. One representative application of YANNs is to reformulate explicit solutions of multi-parametric linear model predictive control. Built on this, we propose the use of YANNs to initialize RL actor and critic networks, which enables the resulting YANN-RL control algorithm to start with the confidence of linear optimal control. The YANN-actor is initialized by representing the multi-parametric control solutions obtained via offline computation using an approximated linear system model. The YANN-critic represents the explicit form of the state-action value function for the linear system and the reward function as the objective in an optimal control problem (OCP). Additional network layers are injected to extend YANNs for nonlinear expressions, which can be trained online by directly interacting with the true complex nonlinear system. In this way, both the policy and state-value functions exactly represent a linear OCP initially and are able to eventually learn the solution of a general nonlinear OCP. Continuous policy improvement is also implemented to provide heuristic confidence that the linear OCP solution serves as an effective lower bound to the performance of RL policy. The YANN-RL algorithm is demonstrated on a clipped pendulum and a safety-critical chemical-reactive system. Our results show that YANN-RL significantly outperforms the modern RL algorithm using deep deterministic policy gradient, especially when considering safety constraints.
- Abstract(参考訳): 本稿では,Y-wise Affine Neural Networks (YANN) に基づく新しい強化学習(RL)アルゴリズムを提案する。
YANNは、任意の入力次元と出力次元の既知の断片的なアフィン関数を、ポリトピックサブドメインの任意の量で正確に表現できる解釈可能なニューラルネットワークを提供する。
YANNの代表的な応用の1つは、多パラメータ線形モデル予測制御の明示的な解を再構成することである。
そこで我々は, YANNを用いてRLアクタと批評家ネットワークを初期化する手法を提案し, 線形最適制御の信頼性から, YANN-RL制御アルゴリズムを導出する。
YANN-actorは、近似線形システムモデルを用いてオフライン計算により得られたマルチパラメトリック制御ソリューションを代表して初期化される。
YANN批判は、線形システムに対する状態-作用値関数の明示的な形と、最適制御問題(OCP)の目的としての報酬関数を表す。
追加のネットワーク層は、非線形表現のためにYANNを拡張するために注入され、真の複雑な非線形システムと直接対話することでオンラインで訓練することができる。
このように、方針関数と状態値関数は、最初は線形OCPを正確に表現し、最終的には一般非線形OCPの解を学習することができる。
また、線形OCPソリューションがRLポリシーの性能に有効な下限となるというヒューリスティックな自信を与えるために、継続的政策改善も実施されている。
YANN-RLアルゴリズムは、切断された振り子と安全臨界化学反応系で実証される。
この結果から, YANN-RLは, 安全性制約を考慮した場合, 深い決定論的ポリシー勾配を用いて, 最新のRLアルゴリズムを著しく上回ることがわかった。
関連論文リスト
- YANNs: Y-wise Affine Neural Networks for Exact and Efficient Representations of Piecewise Linear Functions [0.0]
Y-wise Affine Neural Networks (YANN) は、ポリトピックによる断片的なアフィン関数を表現する、完全に説明可能なネットワークアーキテクチャである。
YANNは元の定式化の数学的性質をすべて維持する。
理論的には、状態、出力、集合点、乱の断片的なアフィン関数として最適制御法則を計算している。
論文 参考訳(メタデータ) (2025-05-11T16:55:38Z) - Graph Neural Network-Based Distributed Optimal Control for Linear Networked Systems: An Online Distributed Training Approach [2.899475960472822]
グラフリカレントニューラルネットワーク(GRNN)を用いた離散時間線形ネットワークシステムの最適分散制御問題について検討する。
まず、GRNNに基づく分散最適制御法を提案し、これを自己教師付き学習問題とみなし、その後、(合意に基づく)勾配にインスパイアされた計算によって分散オンライントレーニングを実現し、また、提案したGRNNベースの制御下での線形ネットワークシステムの閉ループ安定性を、GRNNベースの制御器の非線形活性化関数が局所セクター境界と傾斜制限の両方であると仮定して提供する。
論文 参考訳(メタデータ) (2025-04-08T21:18:43Z) - Linearization of ReLU Activation Function for Neural Network-Embedded Optimization: Optimal Day-Ahead Energy Scheduling [5.254482407158516]
電池劣化ニューラルネットワークに基づくマイクログリッドデイアヘッドエネルギースケジューリングのような応用では、訓練された学習モデルの入力特徴は最適化モデルで解決すべき変数である。
ニューラルネットワークにおける非線形アクティベーション関数の使用は、解けなければそのような問題を極端に解決し難いものにする。
本稿では,ReLU活性化関数に適した4つの線形化法を開発し,解析し,比較した。
論文 参考訳(メタデータ) (2023-10-03T02:47:38Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Resource Allocation via Graph Neural Networks in Free Space Optical
Fronthaul Networks [119.81868223344173]
本稿では,自由空間光(FSO)フロントホールネットワークにおける最適資源割り当てについて検討する。
我々は、FSOネットワーク構造を利用するために、ポリシーパラメータ化のためのグラフニューラルネットワーク(GNN)を検討する。
本アルゴリズムは,システムモデルに関する知識が不要なモデルフリーでGNNを訓練するために開発された。
論文 参考訳(メタデータ) (2020-06-26T14:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。