Fugu-MT 論文翻訳(概要): Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards

論文の概要: Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards

arxiv url: http://arxiv.org/abs/2402.09075v1
Date: Wed, 14 Feb 2024 10:35:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 16:09:49.673013
Title: Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards
Title（参考訳）: 二次報酬を用いた強化学習における定常誤差補償
Authors: Liyao Wang, Zishun Zheng and Yuan Lin
Abstract要約: 強化学習(RL)における報酬関数の選択は,システム性能への影響から注目されている。本研究は、積分項を導入するアプローチを提案する。この項を二次型報酬関数に統合することにより、RLアルゴリズムはシステムによる長期報酬の考慮を増大させ、順応的に調整される。
参考スコア（独自算出の注目度）: 1.2054816252511378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The selection of a reward function in Reinforcement Learning (RL) has garnered significant attention because of its impact on system performance. Issues of steady-state error often manifest when quadratic reward functions are employed. Although existing solutions using absolute-value-type reward functions partially address this problem, they tend to induce substantial fluctuations in specific system states, leading to abrupt changes. In response to this challenge, this study proposes an approach that introduces an integral term. By integrating this term into quadratic-type reward functions, the RL algorithm is adeptly tuned, augmenting the system's consideration of long-term rewards and, consequently, alleviating concerns related to steady-state errors. Through experiments and performance evaluations on the Adaptive Cruise Control (ACC) model and lane change models, we validate that the proposed method not only effectively diminishes steady-state errors but also results in smoother variations in system states.
Abstract（参考訳）: 強化学習(rl)における報酬関数の選択は,そのシステム性能への影響から,大きな注目を集めている。定常誤差の問題はしばしば二次報酬関数が用いられるときに現れる。絶対値型報酬関数を用いた既存の解は部分的にこの問題に対処するが、特定の系の状態にかなりの変動を引き起こす傾向にあり、突然の変化をもたらす。この課題に対して,本研究では,積分項を導入するアプローチを提案する。この項を二次型報酬関数に統合することにより、RLアルゴリズムは順応的に調整され、システムの長期報酬を考慮した結果、定常状態誤差に関する懸念が軽減される。適応クルーズ制御(ACC)モデルと車線変更モデルを用いた実験および性能評価により,提案手法が定常誤差を効果的に低減するだけでなく,システム状態のスムーズな変化をもたらすことを検証した。

関連論文リスト

HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文参考訳（メタデータ） (2025-10-10T13:42:03Z)
Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling [41.834250664485666]
大規模な推論モデルは、パフォーマンス上のメリットのない、過度に長い推論パスを生成します。長さをペナライズする既存のソリューションは、しばしば失敗し、パフォーマンスが低下する。我々は、現在長さの報酬に未適応な2つの欠陥の理論的発見に基づいて、新しいフレームワークDECSを紹介した。
論文参考訳（メタデータ） (2025-09-30T06:04:43Z)
Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。 SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文参考訳（メタデータ） (2025-09-20T17:09:14Z)
ReDit: Reward Dithering for Improved LLM Policy Optimization [6.841631032347429]
DeepSeek-R1は、ルールベースの報酬システムを通じて、LLM(Large Language Model)推論機能の拡張に成功した。報酬のハッキングを効果的に軽減する「完璧な」報酬システムであるが、そのような報酬機能はしばしば離散的である。本稿では、単純なランダムノイズを加えることで離散的な報酬信号をディザリングするReDit(Reward Dithering)を提案する。
論文参考訳（メタデータ） (2025-06-23T13:36:24Z)
The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
論文参考訳（メタデータ） (2024-06-22T06:43:51Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Robustness Verification of Deep Reinforcement Learning Based Control Systems using Reward Martingales [13.069196356472272]
本稿では,DRLに基づく制御システムのロバスト性検証のための報奨マーチンガレットの導入による最初のアプローチを提案する。本結果は,2つの質問に対する有意な定量的証明を提供する。次に、さまざまな種類の制御ポリシに対して、ニューラルネットワークを介して報酬マーチンガレットを実装およびトレーニングできることを示します。
論文参考訳（メタデータ） (2023-12-15T11:16:47Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Doubly Robust Proximal Causal Learning for Continuous Treatments [56.05592840537398]
本稿では,カーネルベースの2倍頑健な因果学習推定器を提案する。オラクル形式は影響関数の一貫した近似であることを示す。次に、平均二乗誤差の観点から総合収束解析を行う。
論文参考訳（メタデータ） (2023-09-22T12:18:53Z)
Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文参考訳（メタデータ） (2023-07-24T19:43:22Z)
Efficient Reinforcement Learning with Impaired Observability: Learning to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文参考訳（メタデータ） (2023-06-02T02:46:39Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)
Learning Long-Term Reward Redistribution via Randomized Return Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文参考訳（メタデータ） (2021-11-26T13:23:36Z)
Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文参考訳（メタデータ） (2021-06-07T10:35:52Z)
Assessment of Reward Functions for Reinforcement Learning Traffic Signal Control under Real-World Limitations [0.0]
本稿では,マンチェスター大都市圏のジャンクションシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。速度の最大化により、すべての需要レベルにおいて平均待ち時間が最低となり、文献で紹介された他の報酬よりも性能が著しく向上したことが判明した。
論文参考訳（メタデータ） (2020-08-26T15:47:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。