論文の概要: Safe Reinforcement Learning with Natural Language Constraints
- arxiv url: http://arxiv.org/abs/2010.05150v2
- Date: Wed, 4 Aug 2021 02:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 12:41:14.532093
- Title: Safe Reinforcement Learning with Natural Language Constraints
- Title(参考訳): 自然言語制約による安全強化学習
- Authors: Tsung-Yen Yang and Michael Hu and Yinlam Chow and Peter J. Ramadge and
Karthik Narasimhan
- Abstract要約: 我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
- 参考スコア(独自算出の注目度): 39.70152978025088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While safe reinforcement learning (RL) holds great promise for many practical
applications like robotics or autonomous cars, current approaches require
specifying constraints in mathematical form. Such specifications demand domain
expertise, limiting the adoption of safe RL. In this paper, we propose learning
to interpret natural language constraints for safe RL. To this end, we first
introduce HazardWorld, a new multi-task benchmark that requires an agent to
optimize reward while not violating constraints specified in free-form text. We
then develop an agent with a modular architecture that can interpret and adhere
to such textual constraints while learning new tasks. Our model consists of (1)
a constraint interpreter that encodes textual constraints into spatial and
temporal representations of forbidden states, and (2) a policy network that
uses these representations to produce a policy achieving minimal constraint
violations during training. Across different domains in HazardWorld, we show
that our method achieves higher rewards (up to11x) and fewer constraint
violations (by 1.8x) compared to existing approaches. However, in terms of
absolute performance, HazardWorld still poses significant challenges for agents
to learn efficiently, motivating the need for future work.
- Abstract(参考訳): 安全強化学習(RL)は、ロボット工学や自律走行車など、多くの実用化に大いに貢献するが、現在のアプローチでは、数学的形式の制約を指定する必要がある。
このような仕様はドメインの専門知識を必要とし、安全なRLの採用を制限する。
本稿では,安全なRLのための自然言語制約を解釈する学習を提案する。
この目的のために、我々はまず、フリーフォームテキストで指定された制約に違反せず、エージェントが報酬を最適化する必要がある新しいマルチタスクベンチマークであるhamgerworldを紹介します。
次に,新しいタスクを学習しながら,このようなテキスト制約を解釈し,遵守できるモジュールアーキテクチャを持つエージェントを開発する。
本モデルは,(1)禁止状態の空間的および時間的表現に制約をエンコードする制約インタプリタと,(2)これらの表現を用いて,トレーニング中に最小限の制約違反を達成するポリシーを生成するポリシネットワークから構成される。
HazardWorldの異なるドメイン間で、我々の手法は既存のアプローチに比べて高い報酬(最大11倍)と少ない制約違反(1.8倍)を達成することを示す。
しかし、絶対的なパフォーマンスに関しては、HazardWorldはエージェントが効率的に学習し、将来の作業の必要性を動機付けながら、依然として大きな課題を提起している。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models [36.44404825103045]
安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。
本稿では,RLエージェントによる自然言語制約の理解を容易にするために,事前学習言語モデル(LM)を提案する。
提案手法は,人間由来の自然言語制約の多種多様な制約の下で,安全な政策学習を促進する。
論文 参考訳(メタデータ) (2024-01-15T09:37:03Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - State-wise Safe Reinforcement Learning: A Survey [5.826308050755618]
ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。
本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
論文 参考訳(メタデータ) (2023-02-06T21:11:29Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。