論文の概要: Steady-State Error Compensation for Reinforcement Learning with
Quadratic Rewards
- arxiv url: http://arxiv.org/abs/2402.09075v1
- Date: Wed, 14 Feb 2024 10:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:09:49.673013
- Title: Steady-State Error Compensation for Reinforcement Learning with
Quadratic Rewards
- Title(参考訳): 二次報酬を用いた強化学習における定常誤差補償
- Authors: Liyao Wang, Zishun Zheng and Yuan Lin
- Abstract要約: 強化学習(RL)における報酬関数の選択は,システム性能への影響から注目されている。
本研究は、積分項を導入するアプローチを提案する。
この項を二次型報酬関数に統合することにより、RLアルゴリズムはシステムによる長期報酬の考慮を増大させ、順応的に調整される。
- 参考スコア(独自算出の注目度): 1.2054816252511378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The selection of a reward function in Reinforcement Learning (RL) has
garnered significant attention because of its impact on system performance.
Issues of steady-state error often manifest when quadratic reward functions are
employed. Although existing solutions using absolute-value-type reward
functions partially address this problem, they tend to induce substantial
fluctuations in specific system states, leading to abrupt changes. In response
to this challenge, this study proposes an approach that introduces an integral
term. By integrating this term into quadratic-type reward functions, the RL
algorithm is adeptly tuned, augmenting the system's consideration of long-term
rewards and, consequently, alleviating concerns related to steady-state errors.
Through experiments and performance evaluations on the Adaptive Cruise Control
(ACC) model and lane change models, we validate that the proposed method not
only effectively diminishes steady-state errors but also results in smoother
variations in system states.
- Abstract(参考訳): 強化学習(rl)における報酬関数の選択は,そのシステム性能への影響から,大きな注目を集めている。
定常誤差の問題はしばしば二次報酬関数が用いられるときに現れる。
絶対値型報酬関数を用いた既存の解は部分的にこの問題に対処するが、特定の系の状態にかなりの変動を引き起こす傾向にあり、突然の変化をもたらす。
この課題に対して,本研究では,積分項を導入するアプローチを提案する。
この項を二次型報酬関数に統合することにより、RLアルゴリズムは順応的に調整され、システムの長期報酬を考慮した結果、定常状態誤差に関する懸念が軽減される。
適応クルーズ制御(ACC)モデルと車線変更モデルを用いた実験および性能評価により,提案手法が定常誤差を効果的に低減するだけでなく,システム状態のスムーズな変化をもたらすことを検証した。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Doubly Robust Proximal Causal Learning for Continuous Treatments [56.05592840537398]
本稿では,カーネルベースの2倍頑健な因果学習推定器を提案する。
オラクル形式は影響関数の一貫した近似であることを示す。
次に、平均二乗誤差の観点から総合収束解析を行う。
論文 参考訳(メタデータ) (2023-09-22T12:18:53Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。
エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文 参考訳(メタデータ) (2021-06-07T10:35:52Z) - Assessment of Reward Functions for Reinforcement Learning Traffic Signal
Control under Real-World Limitations [0.0]
本稿では,マンチェスター大都市圏のジャンクションシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。
速度の最大化により、すべての需要レベルにおいて平均待ち時間が最低となり、文献で紹介された他の報酬よりも性能が著しく向上したことが判明した。
論文 参考訳(メタデータ) (2020-08-26T15:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。