論文の概要: Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2401.07553v2
- Date: Fri, 19 Apr 2024 05:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 19:47:30.113289
- Title: Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
- Title(参考訳): 自由形自然言語制約と事前学習言語モデルを用いた安全強化学習
- Authors: Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du,
- Abstract要約: 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。
本稿では,RLエージェントによる自然言語制約の理解を容易にするために,事前学習言語モデル(LM)を提案する。
提案手法は,人間由来の自然言語制約の多種多様な制約の下で,安全な政策学習を促進する。
- 参考スコア(独自算出の注目度): 36.44404825103045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) agents accomplish given tasks while adhering to specific constraints. Employing constraints expressed via easily-understandable human language offers considerable potential for real-world applications due to its accessibility and non-reliance on domain expertise. Previous safe RL methods with natural language constraints typically adopt a recurrent neural network, which leads to limited capabilities when dealing with various forms of human language input. Furthermore, these methods often require a ground-truth cost function, necessitating domain expertise for the conversion of language constraints into a well-defined cost function that determines constraint violation. To address these issues, we proposes to use pre-trained language models (LM) to facilitate RL agents' comprehension of natural language constraints and allow them to infer costs for safe policy learning. Through the use of pre-trained LMs and the elimination of the need for a ground-truth cost, our method enhances safe policy learning under a diverse set of human-derived free-form natural language constraints. Experiments on grid-world navigation and robot control show that the proposed method can achieve strong performance while adhering to given constraints. The usage of pre-trained LMs allows our method to comprehend complicated constraints and learn safe policies without the need for ground-truth cost at any stage of training or evaluation. Extensive ablation studies are conducted to demonstrate the efficacy of each part of our method.
- Abstract(参考訳): 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。
容易に理解可能なヒューマン言語を介して表現される制約を採用することは、アクセシビリティとドメインの専門知識への非依存のために、現実世界のアプリケーションにかなりの可能性をもたらす。
自然言語制約のある従来の安全なRL手法は、典型的にはリカレントニューラルネットワークを採用する。
さらに、これらの手法は、言語制約を、制約違反を決定するための明確に定義されたコスト関数に変換するために、ドメインの専門知識を必要とすることが多い。
これらの問題に対処するために、我々は、RLエージェントによる自然言語制約の理解を促進し、安全な政策学習のためのコストを推測できるようにするために、事前学習言語モデル(LM)を使用することを提案する。
本手法は,事前学習したLMを使用することにより,人為的な自由形自然言語制約の下での安全な政策学習を促進する。
グリッドワールドナビゲーションとロボット制御の実験により,提案手法は与えられた制約に固執しながら高い性能が得られることを示した。
事前学習したLMを使用することで、複雑な制約を理解し、トレーニングや評価のどの段階でも地道的なコストを要さずに安全な政策を学習することができる。
本法の各部位の有効性を示すため, 広範囲なアブレーション試験を行った。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。
TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:08:20Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Natural Language Reinforcement Learning [25.165291680493844]
本稿では,自然言語表現とRLの原理を組み合わせた自然言語強化学習(NLRL)を紹介する。
具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。
論文 参考訳(メタデータ) (2024-02-11T11:03:04Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - Natural Language-conditioned Reinforcement Learning with Inside-out Task
Language Development and Translation [14.176720914723127]
自然言語条件強化学習(英語版) (RL) により、エージェントは人間の指示に従うことができる。
従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。
我々は,タスク関連でユニークなタスク言語(TL)を開発することにより,自然言語条件付きRLの内在型スキームを開発する。
論文 参考訳(メタデータ) (2023-02-18T15:49:09Z) - Safe Reinforcement Learning with Natural Language Constraints [39.70152978025088]
我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-11T03:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。