論文の概要: Safe Reinforcement Learning with Free-form Natural Language Constraints
and Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2401.07553v1
- Date: Mon, 15 Jan 2024 09:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:33:39.953422
- Title: Safe Reinforcement Learning with Free-form Natural Language Constraints
and Pre-Trained Language Models
- Title(参考訳): 自由形自然言語制約と事前学習言語モデルを用いた安全強化学習
- Authors: Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du
- Abstract要約: 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。
本稿では,RLエージェントによる自然言語制約の理解を容易にするために,事前学習言語モデル(LM)を提案する。
提案手法は,人間由来の自然言語制約の多種多様な制約の下で,安全な政策学習を促進する。
- 参考スコア(独自算出の注目度): 39.09884971763573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) agents accomplish given tasks while adhering
to specific constraints. Employing constraints expressed via
easily-understandable human language offers considerable potential for
real-world applications due to its accessibility and non-reliance on domain
expertise. Previous safe RL methods with natural language constraints typically
adopt a recurrent neural network, which leads to limited capabilities when
dealing with various forms of human language input. Furthermore, these methods
often require a ground-truth cost function, necessitating domain expertise for
the conversion of language constraints into a well-defined cost function that
determines constraint violation. To address these issues, we proposes to use
pre-trained language models (LM) to facilitate RL agents' comprehension of
natural language constraints and allow them to infer costs for safe policy
learning. Through the use of pre-trained LMs and the elimination of the need
for a ground-truth cost, our method enhances safe policy learning under a
diverse set of human-derived free-form natural language constraints.
Experiments on grid-world navigation and robot control show that the proposed
method can achieve strong performance while adhering to given constraints. The
usage of pre-trained LMs allows our method to comprehend complicated
constraints and learn safe policies without the need for ground-truth cost at
any stage of training or evaluation. Extensive ablation studies are conducted
to demonstrate the efficacy of each part of our method.
- Abstract(参考訳): 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。
理解しやすい人間の言語によって表現される制約は、そのアクセシビリティとドメインの専門知識に依存しないため、現実世界のアプリケーションに対してかなりの可能性をもたらす。
自然言語制約を持つ従来の安全なrlメソッドは、通常、リカレントニューラルネットワークを採用しており、人間の言語入力の様々な形態を扱う際の能力に制限がある。
さらに、これらの手法は、言語制約を制約違反を決定するよく定義されたコスト関数に変換するために、ドメインの専門知識を必要とする。
これらの問題に対処するために,我々は,rlエージェントによる自然言語制約の理解を促進するための事前学習型言語モデル(lm)の利用を提案し,安全な政策学習のためのコストの推測を可能にする。
本手法は, 事前学習されたlmsの使用と, 基礎コストの必要性の排除により, 多様な自然言語制約下での安全な政策学習を促進する。
グリッドワールドナビゲーションとロボット制御の実験により,提案手法は与えられた制約に固執しながら強い性能を達成できることが示された。
事前学習したlmsを用いることで,訓練や評価のどの段階でも基礎コストを必要とせずに,複雑な制約を把握し,安全なポリシーを学ぶことができる。
本法の各部位の有効性を示すため,広範囲なアブレーション試験を行った。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。
TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:08:20Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Natural Language Reinforcement Learning [25.165291680493844]
本稿では,自然言語表現とRLの原理を組み合わせた自然言語強化学習(NLRL)を紹介する。
具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。
論文 参考訳(メタデータ) (2024-02-11T11:03:04Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - Natural Language-conditioned Reinforcement Learning with Inside-out Task
Language Development and Translation [14.176720914723127]
自然言語条件強化学習(英語版) (RL) により、エージェントは人間の指示に従うことができる。
従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。
我々は,タスク関連でユニークなタスク言語(TL)を開発することにより,自然言語条件付きRLの内在型スキームを開発する。
論文 参考訳(メタデータ) (2023-02-18T15:49:09Z) - Safe Reinforcement Learning with Natural Language Constraints [39.70152978025088]
我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-11T03:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。