論文の概要: Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control
- arxiv url: http://arxiv.org/abs/2010.15597v1
- Date: Sun, 25 Oct 2020 19:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:22:25.583181
- Title: Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control
- Title(参考訳): 有限報酬応答フィルタによる強化学習の強化 : 知的構造制御を事例として
- Authors: Hamid Radmard Rahmani, Carsten Koenke, Marco A. Wiering
- Abstract要約: 多くの強化学習(RL)問題では、エージェントの作用が環境に最大限の影響を及ぼすまで、しばらく時間がかかる。
本稿では,学習段階の開始時にエージェントがひとつの行動をとる,適用可能な拡張Q-ラーニング手法を提案する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many reinforcement learning (RL) problems, it takes some time until a
taken action by the agent reaches its maximum effect on the environment and
consequently the agent receives the reward corresponding to that action by a
delay called action-effect delay. Such delays reduce the performance of the
learning algorithm and increase the computational costs, as the reinforcement
learning agent values the immediate rewards more than the future reward that is
more related to the taken action. This paper addresses this issue by
introducing an applicable enhanced Q-learning method in which at the beginning
of the learning phase, the agent takes a single action and builds a function
that reflects the environments response to that action, called the reflexive
$\gamma$ - function. During the training phase, the agent utilizes the created
reflexive $\gamma$- function to update the Q-values. We have applied the
developed method to a structural control problem in which the goal of the agent
is to reduce the vibrations of a building subjected to earthquake excitations
with a specified delay. Seismic control problems are considered as a complex
task in structural engineering because of the stochastic and unpredictable
nature of earthquakes and the complex behavior of the structure. Three
scenarios are presented to study the effects of zero, medium, and long
action-effect delays and the performance of the Enhanced method is compared to
the standard Q-learning method. Both RL methods use neural network to learn to
estimate the state-action value function that is used to control the structure.
The results show that the enhanced method significantly outperforms the
performance of the original method in all cases, and also improves the
stability of the algorithm in dealing with action-effect delays.
- Abstract(参考訳): 多くの強化学習(RL)問題では、エージェントによる取付動作が環境に最大効果に達するまでの時間を要するため、エージェントはアクション効果遅延と呼ばれる遅延によってそのアクションに対応する報酬を受け取る。
このような遅延により,学習アルゴリズムの性能が低下し,計算コストが増大する。
本稿では,学習段階の始めに1つのアクションをとり,そのアクションに対する環境応答を反映した関数を,反射的$\gamma$-関数という関数で構築する,適用可能な拡張q学習手法を導入することで,この問題に対処する。
トレーニングフェーズの間、エージェントは生成された反射的$\gamma$-関数を使用してq値を更新する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
地震の確率的かつ予測不可能な性質と構造物の複雑な挙動から, 地震制御問題は構造工学における複雑な課題と見なされている。
ゼロ,媒体,長大な動作効果遅延の影響を3つのシナリオで検討し,拡張法の性能を標準q学習法と比較した。
どちらのRL法もニューラルネットワークを用いて、構造を制御するために使用される状態-作用値関数を推定する。
提案手法は,全てのケースにおいて元の手法の性能を著しく向上し,動作効果の遅延に対処するアルゴリズムの安定性も向上することを示した。
関連論文リスト
- TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning [27.93845816476777]
本研究はトランスフォーマーに基づくオフポリシック・エピソード強化学習(TOP-ERL)を紹介する。
TOP-ERLは、ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-10-12T13:55:26Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Structure-Enhanced DRL for Optimal Transmission Scheduling [43.801422320012286]
本稿では,遠隔推定システムの送信スケジューリング問題に焦点をあてる。
システムの最適スケジューリングのための構造強化型深層強化学習フレームワークを開発した。
特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
論文 参考訳(メタデータ) (2022-12-24T10:18:38Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Delayed Reinforcement Learning by Imitation [31.932677462399468]
遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-11T15:27:33Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - RL-Controller: a reinforcement learning framework for active structural
control [0.0]
フレキシブルでスケーラブルなシミュレーション環境であるRL-Controllerを導入することで,アクティブコントローラを設計するための新しいRLベースのアプローチを提案する。
提案するフレームワークは,5階建てのベンチマークビルディングに対して,平均65%の削減率で,容易に学習可能であることを示す。
LQG 能動制御法との比較研究において,提案したモデルフリーアルゴリズムはより最適なアクチュエータ強制戦略を学習することを示した。
論文 参考訳(メタデータ) (2021-03-13T04:42:13Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。