論文の概要: Safe Reinforcement Learning with Natural Language Constraints
- arxiv url: http://arxiv.org/abs/2010.05150v2
- Date: Wed, 4 Aug 2021 02:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 12:41:14.532093
- Title: Safe Reinforcement Learning with Natural Language Constraints
- Title(参考訳): 自然言語制約による安全強化学習
- Authors: Tsung-Yen Yang and Michael Hu and Yinlam Chow and Peter J. Ramadge and
Karthik Narasimhan
- Abstract要約: 我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
- 参考スコア(独自算出の注目度): 39.70152978025088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While safe reinforcement learning (RL) holds great promise for many practical
applications like robotics or autonomous cars, current approaches require
specifying constraints in mathematical form. Such specifications demand domain
expertise, limiting the adoption of safe RL. In this paper, we propose learning
to interpret natural language constraints for safe RL. To this end, we first
introduce HazardWorld, a new multi-task benchmark that requires an agent to
optimize reward while not violating constraints specified in free-form text. We
then develop an agent with a modular architecture that can interpret and adhere
to such textual constraints while learning new tasks. Our model consists of (1)
a constraint interpreter that encodes textual constraints into spatial and
temporal representations of forbidden states, and (2) a policy network that
uses these representations to produce a policy achieving minimal constraint
violations during training. Across different domains in HazardWorld, we show
that our method achieves higher rewards (up to11x) and fewer constraint
violations (by 1.8x) compared to existing approaches. However, in terms of
absolute performance, HazardWorld still poses significant challenges for agents
to learn efficiently, motivating the need for future work.
- Abstract(参考訳): 安全強化学習(RL)は、ロボット工学や自律走行車など、多くの実用化に大いに貢献するが、現在のアプローチでは、数学的形式の制約を指定する必要がある。
このような仕様はドメインの専門知識を必要とし、安全なRLの採用を制限する。
本稿では,安全なRLのための自然言語制約を解釈する学習を提案する。
この目的のために、我々はまず、フリーフォームテキストで指定された制約に違反せず、エージェントが報酬を最適化する必要がある新しいマルチタスクベンチマークであるhamgerworldを紹介します。
次に,新しいタスクを学習しながら,このようなテキスト制約を解釈し,遵守できるモジュールアーキテクチャを持つエージェントを開発する。
本モデルは,(1)禁止状態の空間的および時間的表現に制約をエンコードする制約インタプリタと,(2)これらの表現を用いて,トレーニング中に最小限の制約違反を達成するポリシーを生成するポリシネットワークから構成される。
HazardWorldの異なるドメイン間で、我々の手法は既存のアプローチに比べて高い報酬(最大11倍)と少ない制約違反(1.8倍)を達成することを示す。
しかし、絶対的なパフォーマンスに関しては、HazardWorldはエージェントが効率的に学習し、将来の作業の必要性を動機付けながら、依然として大きな課題を提起している。
関連論文リスト
- Multi-Constraint Safe RL with Objective Suppression for Safety-Critical
Applications [80.99495309420959]
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
我々は、自律運転領域を含む2つのマルチ制約安全領域において、客観抑制をベンチマークする。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Reinforcement Learning with Free-form Natural Language Constraints
and Pre-Trained Language Models [39.09884971763573]
安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。
本稿では,RLエージェントによる自然言語制約の理解を容易にするために,事前学習言語モデル(LM)を提案する。
提案手法は,人間由来の自然言語制約の多種多様な制約の下で,安全な政策学習を促進する。
論文 参考訳(メタデータ) (2024-01-15T09:37:03Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - State-wise Safe Reinforcement Learning: A Survey [5.826308050755618]
ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。
本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
論文 参考訳(メタデータ) (2023-02-06T21:11:29Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - Learning Behavioral Soft Constraints from Demonstrations [31.34800444313487]
本稿では,状態,行動,状態特徴に対する暗黙の厳密な制約を学習するための新しい逆強化学習法を提案する。
本手法は,エージェント設計者による明示的なモデリングを必要とせず,人的制約や欲求を暗黙的に学習することを可能にする。
論文 参考訳(メタデータ) (2022-02-21T18:09:56Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones [81.49106778460238]
リカバリRLは、オフラインデータを使用して、ポリシー学習の前に制約違反ゾーンについて学習する。
2つのコンタクトリッチな操作タスクと画像に基づくナビゲーションタスクを含む6つのシミュレーション領域におけるリカバリRLの評価を行った。
その結果,リカバリRLは制約違反やタスク成功を2~20倍,物理実験では3倍の効率で処理できることが示唆された。
論文 参考訳(メタデータ) (2020-10-29T20:10:02Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。