論文の概要: From Text to Trajectory: Exploring Complex Constraint Representation and Decomposition in Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.08920v2
- Date: Fri, 21 Feb 2025 08:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:08:07.209668
- Title: From Text to Trajectory: Exploring Complex Constraint Representation and Decomposition in Safe Reinforcement Learning
- Title(参考訳): テキストから軌道へ:安全な強化学習における複雑な制約表現と分解を探る
- Authors: Pusen Dong, Tianchen Zhu, Yue Qiu, Haoyi Zhou, Jianxin Li,
- Abstract要約: 手作業で設計したコスト関数を置き換えるために,T Trajectory-level Textual Constraints Translator (TTCT)を導入した。
実験の結果,TTCTはテキストの制約や軌道を効果的に理解しており,TTCTが訓練したポリシーは標準コスト関数よりも低い違反率が得られることがわかった。
- 参考スコア(独自算出の注目度): 11.862238338875578
- License:
- Abstract: Safe reinforcement learning (RL) requires the agent to finish a given task while obeying specific constraints. Giving constraints in natural language form has great potential for practical scenarios due to its flexible transfer capability and accessibility. Previous safe RL methods with natural language constraints typically need to design cost functions manually for each constraint, which requires domain expertise and lacks flexibility. In this paper, we harness the dual role of text in this task, using it not only to provide constraint but also as a training signal. We introduce the Trajectory-level Textual Constraints Translator (TTCT) to replace the manually designed cost function. Our empirical results demonstrate that TTCT effectively comprehends textual constraint and trajectory, and the policies trained by TTCT can achieve a lower violation rate than the standard cost function. Extra studies are conducted to demonstrate that the TTCT has zero-shot transfer capability to adapt to constraint-shift environments.
- Abstract(参考訳): 安全な強化学習(RL)では、特定の制約に従いながら、エージェントが与えられたタスクを完了する必要がある。
自然言語形式の制約を与えることは、その柔軟な転送能力とアクセシビリティにより、現実的なシナリオにとって大きな可能性がある。
自然言語制約のある従来の安全なRLメソッドは、通常、各制約に対して手動でコスト関数を設計する必要があります。
本稿では,このタスクにおけるテキストの二重の役割を利用して,制約を提供するだけでなく,訓練信号として利用する。
手作業で設計したコスト関数を置き換えるために,T Trajectory-level Textual Constraints Translator (TTCT)を導入した。
実験の結果,TTCTはテキストの制約や軌道を効果的に理解しており,TTCTが訓練したポリシーは標準コスト関数よりも低い違反率が得られることがわかった。
TTCTは制約シフト環境に適応するゼロショット転送能力を有することを示すために、余分な研究を行った。
関連論文リスト
- Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z) - Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models [36.44404825103045]
安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。
本稿では,RLエージェントによる自然言語制約の理解を容易にするために,事前学習言語モデル(LM)を提案する。
提案手法は,人間由来の自然言語制約の多種多様な制約の下で,安全な政策学習を促進する。
論文 参考訳(メタデータ) (2024-01-15T09:37:03Z) - Disambiguated Lexically Constrained Neural Machine Translation [20.338107081523212]
LCNMTへの現在のアプローチは、あらかじめ指定された語彙制約が文脈的に適切であると仮定している。
この問題を解決するために,不明瞭なLCNMT(D-LCNMT)を提案する。
D-LCNMTは堅牢で効果的な2段階のフレームワークであり、最初は文脈に基づいて制約を曖昧にし、その曖昧な制約をLCNMTに統合する。
論文 参考訳(メタデータ) (2023-05-27T03:15:10Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - COLD Decoding: Energy-based Constrained Text Generation with Langevin
Dynamics [69.8062252611486]
コールドデコーディングは、既製の左から右の言語モデルに直接適用可能なフレキシブルなフレームワークである。
制約付き生成タスクの実験は、自動評価と人的評価の両方の観点から、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2022-02-23T18:59:27Z) - Safe Reinforcement Learning with Natural Language Constraints [39.70152978025088]
我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-11T03:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。