Fugu-MT 論文翻訳(概要): Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models

論文の概要: Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models

arxiv url: http://arxiv.org/abs/2401.07553v1
Date: Mon, 15 Jan 2024 09:37:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 17:33:39.953422
Title: Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
Title（参考訳）: 自由形自然言語制約と事前学習言語モデルを用いた安全強化学習
Authors: Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du
Abstract要約: 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。本稿では,RLエージェントによる自然言語制約の理解を容易にするために,事前学習言語モデル(LM)を提案する。提案手法は,人間由来の自然言語制約の多種多様な制約の下で,安全な政策学習を促進する。
参考スコア（独自算出の注目度）: 39.09884971763573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safe reinforcement learning (RL) agents accomplish given tasks while adhering to specific constraints. Employing constraints expressed via easily-understandable human language offers considerable potential for real-world applications due to its accessibility and non-reliance on domain expertise. Previous safe RL methods with natural language constraints typically adopt a recurrent neural network, which leads to limited capabilities when dealing with various forms of human language input. Furthermore, these methods often require a ground-truth cost function, necessitating domain expertise for the conversion of language constraints into a well-defined cost function that determines constraint violation. To address these issues, we proposes to use pre-trained language models (LM) to facilitate RL agents' comprehension of natural language constraints and allow them to infer costs for safe policy learning. Through the use of pre-trained LMs and the elimination of the need for a ground-truth cost, our method enhances safe policy learning under a diverse set of human-derived free-form natural language constraints. Experiments on grid-world navigation and robot control show that the proposed method can achieve strong performance while adhering to given constraints. The usage of pre-trained LMs allows our method to comprehend complicated constraints and learn safe policies without the need for ground-truth cost at any stage of training or evaluation. Extensive ablation studies are conducted to demonstrate the efficacy of each part of our method.
Abstract（参考訳）: 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。理解しやすい人間の言語によって表現される制約は、そのアクセシビリティとドメインの専門知識に依存しないため、現実世界のアプリケーションに対してかなりの可能性をもたらす。自然言語制約を持つ従来の安全なrlメソッドは、通常、リカレントニューラルネットワークを採用しており、人間の言語入力の様々な形態を扱う際の能力に制限がある。さらに、これらの手法は、言語制約を制約違反を決定するよく定義されたコスト関数に変換するために、ドメインの専門知識を必要とする。これらの問題に対処するために,我々は,rlエージェントによる自然言語制約の理解を促進するための事前学習型言語モデル(lm)の利用を提案し,安全な政策学習のためのコストの推測を可能にする。本手法は, 事前学習されたlmsの使用と, 基礎コストの必要性の排除により, 多様な自然言語制約下での安全な政策学習を促進する。グリッドワールドナビゲーションとロボット制御の実験により,提案手法は与えられた制約に固執しながら強い性能を達成できることが示された。事前学習したlmsを用いることで,訓練や評価のどの段階でも基礎コストを必要とせずに,複雑な制約を把握し,安全なポリシーを学ぶことができる。本法の各部位の有効性を示すため,広範囲なアブレーション試験を行った。

関連論文リスト

Learning Natural Language Constraints for Safe Reinforcement Learning of Language Agents [13.63944785085617]
一般化可能なアライメントは、現実世界のNLPアプリケーションにLLM(Large Language Models)を安全にデプロイする上で、重要な課題である。チューニング前にデータを最初にキュレートするパラダイムシフトに触発されて、安全な言語アライメントのための新しいフレームワークを導入しました。制約付きマルコフ決定プロセス(CMDP)内のフレームワークを形式化し,テキストベースのナビゲーション環境を通じて検証する。
論文参考訳（メタデータ） (2025-04-04T05:26:28Z)
Policy Learning with a Natural Language Action Space: A Causal Approach [24.096991077437146]
本稿では,自然言語行動空間における多段階意思決定のための新たな因果的枠組みを提案する。本手法では,1つのモデルを用いて動的処理規則(DTR)を推定するためにQラーニングを用いる。このアプローチの重要な技術的貢献は、最適化された埋め込みをコヒーレントな自然言語に変換するデコード戦略です。
論文参考訳（メタデータ） (2025-02-24T17:26:07Z)
From Text to Trajectory: Exploring Complex Constraint Representation and Decomposition in Safe Reinforcement Learning [11.862238338875578]
手作業で設計したコスト関数を置き換えるために,T Trajectory-level Textual Constraints Translator (TTCT)を導入した。実験の結果,TTCTはテキストの制約や軌道を効果的に理解しており,TTCTが訓練したポリシーは標準コスト関数よりも低い違反率が得られることがわかった。
論文参考訳（メタデータ） (2024-12-12T04:06:54Z)
LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。 TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。 LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文参考訳（メタデータ） (2024-09-20T18:56:32Z)
Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。 TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文参考訳（メタデータ） (2024-07-02T03:08:20Z)
Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文参考訳（メタデータ） (2024-05-30T12:57:35Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Natural Language Reinforcement Learning [25.165291680493844]
本稿では,自然言語表現とRLの原理を組み合わせた自然言語強化学習(NLRL)を紹介する。具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。
論文参考訳（メタデータ） (2024-02-11T11:03:04Z)
Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文参考訳（メタデータ） (2023-04-27T15:56:34Z)
Natural Language-conditioned Reinforcement Learning with Inside-out Task Language Development and Translation [14.176720914723127]
自然言語条件強化学習(英語版) (RL) により、エージェントは人間の指示に従うことができる。従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。我々は,タスク関連でユニークなタスク言語(TL)を開発することにより,自然言語条件付きRLの内在型スキームを開発する。
論文参考訳（メタデータ） (2023-02-18T15:49:09Z)
Safe Reinforcement Learning with Natural Language Constraints [39.70152978025088]
我々は、安全なRLのための自然言語制約を解釈する学習を提案する。 HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
論文参考訳（メタデータ） (2020-10-11T03:41:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。