Fugu-MT 論文翻訳(概要): Adviser-Actor-Critic: Eliminating Steady-State Error in Reinforcement Learning Control

論文の概要: Adviser-Actor-Critic: Eliminating Steady-State Error in Reinforcement Learning Control

arxiv url: http://arxiv.org/abs/2502.02265v1
Date: Tue, 04 Feb 2025 12:26:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:56.134124
Title: Adviser-Actor-Critic: Eliminating Steady-State Error in Reinforcement Learning Control
Title（参考訳）: アドバイザ・アクタ・クリティカル:強化学習制御における定常誤差の除去
Authors: Donghe Chen, Yubin Peng, Tengjie Zheng, Han Wang, Chaoran Qu, Lin Cheng,
Abstract要約: 精度制御ジレンマに対処するために設計されたアドバイザ・アクター・クライブ(AAC)を導入する。 AACは、俳優にコントロールアクションを洗練させ、それによってゴール達成の精度を高めるアドバイザーを特徴とする。 AACは精度クリティカルでゴール条件付きタスクにおいて標準のRLアルゴリズムよりも優れていた。
参考スコア（独自算出の注目度）: 5.467233817126651
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-precision control tasks present substantial challenges for reinforcement learning (RL) algorithms, frequently resulting in suboptimal performance attributed to network approximation inaccuracies and inadequate sample quality.These issues are exacerbated when the task requires the agent to achieve a precise goal state, as is common in robotics and other real-world applications.We introduce Adviser-Actor-Critic (AAC), designed to address the precision control dilemma by combining the precision of feedback control theory with the adaptive learning capability of RL and featuring an Adviser that mentors the actor to refine control actions, thereby enhancing the precision of goal attainment.Finally, through benchmark tests, AAC outperformed standard RL algorithms in precision-critical, goal-conditioned tasks, demonstrating AAC's high precision, reliability, and robustness.Code are available at: https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5.
Abstract（参考訳）: 高精度制御タスクは,RLの適応学習能力とフィードバック制御理論の精度を組み合わせ,RLの適応学習能力を組み合わせることで,高精度制御ジレンマに対処するように設計されたアドバイザ・アクター・クライト(AAC)を導入し,制御動作の精密化を指導するアドバイザを特徴とする,ネットワーク近似の不正確性やサンプル品質の低下に起因する,最適以下のパフォーマンスの低下を招いた。

関連論文リスト

Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文参考訳（メタデータ） (2024-06-25T08:29:32Z)
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文参考訳（メタデータ） (2024-04-05T17:58:37Z)
Reinforcement Learning with Elastic Time Steps [14.838483990647697]
Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
論文参考訳（メタデータ） (2024-02-22T20:49:04Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Distributional Soft Actor-Critic with Three Refinements [47.46661939652862]
強化学習(Reinforcement Learning, RL)は、複雑な意思決定と制御タスクの解決に顕著な成功を収めた。多くのモデルなしRLアルゴリズムは、不正確な値推定による性能劣化を経験する。本稿では,これらの制限を克服し,Q値推定精度を向上させるために,DSACv1に3つの重要な改良点を導入する。
論文参考訳（メタデータ） (2023-10-09T16:52:48Z)
Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文参考訳（メタデータ） (2023-09-18T18:05:35Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Statistically Characterising Robustness and Fidelity of Quantum Controls and Quantum Control Algorithms [0.5599792629509229]
頑健性不忠実度尺度 (RIM$_p$) は、コントローラの頑健性と忠実度を定量化するために導入された。 RIM$_p$に基づいて、期待されるコントローラーの堅牢性と忠実度を定量化するためにアルゴリズム的ロバスト性不忠実度尺度(ARIM)が開発された。
論文参考訳（メタデータ） (2022-07-16T01:19:57Z)
Adaptable Automation with Modular Deep Reinforcement Learning and Policy Transfer [8.299945169799795]
本稿では,タスクのモジュール化と伝達学習の概念に基づいて,ハイパーアクタソフトアクタクリティカル(HASAC)RLフレームワークを開発し,検証する。 HASACフレームワークは、新しい仮想ロボット操作ベンチマークであるMeta-Worldでテストされている。数値実験により、HASACは、報酬値、成功率、タスク完了時間の観点から、最先端の深部RLアルゴリズムよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-11-27T03:09:05Z)
Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-16T13:16:22Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。