論文の概要: Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards
- arxiv url: http://arxiv.org/abs/2402.09075v2
- Date: Mon, 1 Apr 2024 02:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 19:58:13.801998
- Title: Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards
- Title(参考訳): 擬似逆流を用いた強化学習のための定常誤差補償
- Authors: Liyao Wang, Zishun Zheng, Yuan Lin,
- Abstract要約: 強化学習(RL)における報酬関数の選択は,システム性能への影響から注目されている。
本研究は、積分項を導入するアプローチを提案する。
この積分項を二次型報酬関数に統合することにより、RLアルゴリズムは順応的に調整され、システムによる報酬履歴の考慮が増大する。
- 参考スコア(独自算出の注目度): 1.0725881801927162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The selection of a reward function in Reinforcement Learning (RL) has garnered significant attention because of its impact on system performance. Issues of significant steady-state errors often manifest when quadratic reward functions are employed. Although absolute-value-type reward functions alleviate this problem, they tend to induce substantial fluctuations in specific system states, leading to abrupt changes. In response to this challenge, this study proposes an approach that introduces an integral term. By integrating this integral term into quadratic-type reward functions, the RL algorithm is adeptly tuned, augmenting the system's consideration of reward history, and consequently alleviates concerns related to steady-state errors. Through experiments and performance evaluations on the Adaptive Cruise Control (ACC) and lane change models, we validate that the proposed method effectively diminishes steady-state errors and does not cause significant spikes in some system states.
- Abstract(参考訳): 強化学習(RL)における報酬関数の選択は,システム性能への影響から注目されている。
重要な定常状態誤差の問題は、二次報酬関数が用いられるときにしばしば現れる。
絶対値型報酬関数はこの問題を緩和するが、特定の系状態においてかなりの変動を引き起こす傾向があり、突然の変化をもたらす。
この課題に応えて、本研究では、積分項を導入するアプローチを提案する。
この積分項を二次型報酬関数に統合することにより、RLアルゴリズムは順応的に調整され、システムによる報酬履歴の考慮が増大し、定常状態誤差に関する懸念が軽減される。
適応クルーズ制御(ACC)およびレーン変更モデルの実験および性能評価を通じて,提案手法が定常誤差を効果的に低減し,一部のシステム状態において大きなスパイクを生じさせないことを検証する。
関連論文リスト
- The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。
本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。
次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
論文 参考訳(メタデータ) (2024-06-22T06:43:51Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Robustness Verification of Deep Reinforcement Learning Based Control
Systems using Reward Martingales [13.069196356472272]
本稿では,DRLに基づく制御システムのロバスト性検証のための報奨マーチンガレットの導入による最初のアプローチを提案する。
本結果は,2つの質問に対する有意な定量的証明を提供する。
次に、さまざまな種類の制御ポリシに対して、ニューラルネットワークを介して報酬マーチンガレットを実装およびトレーニングできることを示します。
論文 参考訳(メタデータ) (2023-12-15T11:16:47Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Doubly Robust Proximal Causal Learning for Continuous Treatments [56.05592840537398]
本稿では,カーネルベースの2倍頑健な因果学習推定器を提案する。
オラクル形式は影響関数の一貫した近似であることを示す。
次に、平均二乗誤差の観点から総合収束解析を行う。
論文 参考訳(メタデータ) (2023-09-22T12:18:53Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。
エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文 参考訳(メタデータ) (2021-06-07T10:35:52Z) - Assessment of Reward Functions for Reinforcement Learning Traffic Signal
Control under Real-World Limitations [0.0]
本稿では,マンチェスター大都市圏のジャンクションシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。
速度の最大化により、すべての需要レベルにおいて平均待ち時間が最低となり、文献で紹介された他の報酬よりも性能が著しく向上したことが判明した。
論文 参考訳(メタデータ) (2020-08-26T15:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。