論文の概要: $\mathrm{E^{2}CFD}$: Towards Effective and Efficient Cost Function Design for Safe Reinforcement Learning via Large Language Model
- arxiv url: http://arxiv.org/abs/2407.05580v1
- Date: Mon, 8 Jul 2024 03:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:10:02.888099
- Title: $\mathrm{E^{2}CFD}$: Towards Effective and Efficient Cost Function Design for Safe Reinforcement Learning via Large Language Model
- Title(参考訳): $\mathrm{E^{2}CFD}$:大規模言語モデルによる安全な強化学習のための効率的かつ効率的なコスト関数設計を目指して
- Authors: Zepeng Wang, Chao Ma, Linjiang Zhou, Libing Wu, Lei Yang, Xiaochuan Shi, Guojun Peng,
- Abstract要約: 効率的なコスト関数設計フレームワークである$mathrmE2CFD$を提案する。
$mathrmE2CFD$は、大きな言語モデル(LLM)の機能を活用して、さまざまな安全シナリオを理解し、対応するコスト関数を生成する。
このフレームワークを用いてトレーニングされたポリシーのパフォーマンスは、従来の安全な強化学習アルゴリズムよりも優れていることが実験によって証明されている。
- 参考スコア(独自算出の注目度): 14.079349549657024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different classes of safe reinforcement learning algorithms have shown satisfactory performance in various types of safety requirement scenarios. However, the existing methods mainly address one or several classes of specific safety requirement scenario problems and cannot be applied to arbitrary safety requirement scenarios. In addition, the optimization objectives of existing reinforcement learning algorithms are misaligned with the task requirements. Based on the need to address these issues, we propose $\mathrm{E^{2}CFD}$, an effective and efficient cost function design framework. $\mathrm{E^{2}CFD}$ leverages the capabilities of a large language model (LLM) to comprehend various safety scenarios and generate corresponding cost functions. It incorporates the \textit{fast performance evaluation (FPE)} method to facilitate rapid and iterative updates to the generated cost function. Through this iterative process, $\mathrm{E^{2}CFD}$ aims to obtain the most suitable cost function for policy training, tailored to the specific tasks within the safety scenario. Experiments have proven that the performance of policies trained using this framework is superior to traditional safe reinforcement learning algorithms and policies trained with carefully designed cost functions.
- Abstract(参考訳): 安全強化学習アルゴリズムの様々なクラスは、様々な種類の安全要件シナリオにおいて良好な性能を示している。
しかし、既存の手法は主に特定の安全要件シナリオの1つか複数のクラスに対処しており、任意の安全要件シナリオには適用できない。
さらに,既存の強化学習アルゴリズムの最適化目的は,タスク要求と不一致である。
これらの問題に対処する必要性に基づき、効率的なコスト関数設計フレームワークである$\mathrm{E^{2}CFD}$を提案する。
$\mathrm{E^{2}CFD}$は、大きな言語モデル(LLM)の機能を活用して、さまざまな安全シナリオを理解し、対応するコスト関数を生成する。
生成されたコスト関数の迅速かつ反復的な更新を容易にするために、FPE(textit{fast performance evaluation)メソッドが組み込まれている。
この反復的なプロセスを通じて、$\mathrm{E^{2}CFD}$は、安全シナリオ内の特定のタスクに合わせて、ポリシートレーニングに最適なコスト関数を得ることを目的としている。
実験により、このフレームワークを用いて訓練されたポリシーの性能は、より安全な強化学習アルゴリズムや、慎重に設計されたコスト関数で訓練されたポリシーよりも優れていることが証明された。
関連論文リスト
- A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning [3.4806267677524896]
我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
論文 参考訳(メタデータ) (2023-01-24T22:51:29Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。